将全面掌握Spark生态体系,深入理解Spark性能优化的核心要点,成为一名专业的大数据工程师
课程目标:
将全面掌握Spark生态体系,深入理解Spark性能优化的核心要点,成为一名专业的大数据工程师
课程简介:
数据分析职业是一个多金的职业,数据分析职位是一个金饭碗的职位,前景美好,但是要全面掌握大数据分析技术,非常困难,大部分学员的痛点是不能快速找到入门要点,精准快速上手。
本课程采用项目驱动的方式,以Spark3和Clickhouse技术为突破口,带领学员快速入门Spark3+Clickhouse数据分析,促使学员成为一名高效且优秀的大数据分析人才。
学员通过本课程的学习,不仅可以掌握使用Python3进行Spark3数据分析,还会掌握利用Scala/java进行Spark数据分析,多语言并进,力求全面掌握;另外通过项目驱动,掌握Spark框架的精髓,教导Spark源码查看的技巧;会学到Spark性能优化的核心要点,成为企业急缺的数据分析人才;更会通过Clickhouse和Spark搭建OLAP引擎,使学员对大数据生态圈有一个更加全面的认识和能力的综合提升。真实的数据分析项目,学完即可拿来作为自己的项目经验,增加面试谈薪筹码。
课程涉及内容:
Ø Spark内核原理(RDD、DataFrame、Dataset、Structed Stream、SparkML、SparkSQL)
Ø Spark离线数据分析(千万简历数据分析、雪花模型离线数仓构建)
Ø Spark特征处理及模型预测
Ø Spark实时数据分析(Structed Stream)原理及实战
Ø Spark+Hive构建离线数据仓库(数仓概念ODS/DWD/DWS/ADS)
Ø Clickhouse核心原理及实战
Ø Clickhouse engine详解
Ø Spark向Clickhouse导入简历数据,进行数据聚合分析
Ø catboost训练房价预测机器学习模型
Ø 基于Clickhouse构建机器学习模型利用SQL进行房价预测
Ø Clickhouse集群监控,Nginx反向代理Grafana+Prometheus+Clickhouse+node_exporter
Ø Spark性能优化
Ø Spark工程师面试宝典
〖课程截图〗:
〖课程目录〗:
- ├──第10章 clickhouse集群监控
- | ├──第1讲Clickhouse集群监控之Prometheus安装.mp4 45.20M
- | ├──第2讲Clickhouse集群监控之Grafana配置.mp4 33.56M
- | ├──第3讲Clickhouse集群监控之node_exporter配置.mp4 41.21M
- | ├──第4讲Grafana导入clickhouse集群监控模板.mp4 10.68M
- | └──第5讲Nginx反向代理Tabix+Pro+CK+Grafana.mp4 129.78M
- ├──第1章 课程简介及环境安装
- | ├──第10讲Hadoop集群搭建.mp4 33.10M
- | ├──第11讲Spark311集群搭建.mp4 26.13M
- | ├──第1讲 Spark3+Clickhouse课程大纲简介.mp4 33.96M
- | ├──第2讲大数据生态圈现状.mp4 41.45M
- | ├──第3讲彻底理解SparkRDD.mp4 25.96M
- | ├──第4讲开发环境安装JDK+Scala212.mp4 22.91M
- | ├──第5讲Spark3源码跟读技巧.mp4 33.14M
- | ├──第6讲SparkIDEA开发环境搭建.mp4 21.69M
- | ├──第7讲Net网络配置及虚拟机静态IP配置.mp4 36.71M
- | ├──第8讲VMWareWorkstation克隆主机.mp4 11.19M
- | └──第9讲SSH无密钥登陆及关闭防火墙.mp4 23.22M
- ├──第2章 HadoopYarn光速入门
- | ├──第1讲Hadoop集群动态扩容.mp4 77.17M
- | ├──第2讲Yarn核心组件及调度原理.mp4 36.05M
- | └──第3讲SparkYarn两种调度模式原理及代码实战.mp4 36.05M
- ├──第3章 Spark RDD光速入门
- | ├──第10讲通过隐式转换扩充RDDAction算子.mp4 63.06M
- | ├──第11讲常用的Action算子汇总1.mp4 101.09M
- | ├──第12讲常用的Action算子汇总2.mp4 41.92M
- | ├──第13讲SparkConfig配置对象.mp4 38.42M
- | ├──第14讲Spark任务调度源码走读.mp4 104.39M
- | ├──第15讲基于SparkRDD的项目实战.mp4 56.88M
- | ├──第1讲JdbcRDD等多种方式创建RDD.mp4 112.06M
- | ├──第2讲JupterNotebookPySpark学习环境搭建.mp4 38.06M
- | ├──第3讲累加器和广播变量等8个知识点.mp4 96.90M
- | ├──第4讲SparkContext上的20个知识点.mp4 38.78M
- | ├──第5讲combineByKey等5个知识点(1).mp4 71.84M
- | ├──第5讲combineByKey等5个知识点.mp4 71.84M
- | ├──第6讲牢记容易被混淆的xxxByKey算子.mp4 37.08M
- | ├──第7讲RDD集合的差并补集.mp4 55.63M
- | ├──第8讲RDD上其余的20个知识点.mp4 81.32M
- | └──第9讲通过隐式转换扩充RDD转换算子.mp4 52.06M
- ├──第4章 DataFrameDataset光速入门
- | ├──第10讲Spark数据类型及functions核武库.mp4 161.24M
- | ├──第11讲基于DataFrame的数据挖掘实战.mp4 71.71M
- | ├──第1讲SparkSession详解.mp4 21.99M
- | ├──第2讲SparkSessionreadandwrite.mp4 66.23M
- | ├──第3讲SparkSQL模块简介.mp4 19.29M
- | ├──第4讲SparkDataFrame核心算子知识点16.mp4 118.02M
- | ├──第5讲SparkDataFrame核心知识点60.mp4 146.87M
- | ├──第6讲GroupedData和Column知识点合集.mp4 132.17M
- | ├──第7讲Catalog和Row对象.mp4 50.71M
- | ├──第8讲空数据处理和数据统计.mp4 77.90M
- | └──第9讲Spark读写数据详细知识点.mp4 123.06M
- ├──第5章 SparkSQL进阶
- | ├──第10讲SparkSQL+Hive构建离线数据仓库.mp4 135.57M
- | ├──第11讲DWD明细数据生成.mp4 57.77M
- | ├──第1讲人生苦短我用SparkSQL.mp4 60.40M
- | ├──第2讲SparkSQLjoin原理及优化思路.mp4 95.52M
- | ├──第3讲SparkUDF自定义函数.mp4 48.42M
- | ├──第4讲SparkUDAF自定义聚合函数.mp4 31.94M
- | ├──第5讲SparkSQL整合Hive.mp4 112.26M
- | ├──第6讲SparkUDTF自定义表生成函数.mp4 30.81M
- | ├──第7讲SparkSQL性能优化数据倾斜之两阶段聚合.mp4 65.98M
- | ├──第8讲SparkSQL大表关联小表数据倾斜优化.mp4 43.54M
- | └──第9讲Sql通用执行顺序及数仓分层理论.mp4 42.71M
- ├──第6章 Structured Streaming光速入门
- | ├──第1讲StructuredStreaming流式处理的两种模式.mp4 39.03M
- | ├──第2讲StructuredStreaming核心概念.mp4 110.65M
- | ├──第3讲StructuredStreaming滑动窗口和水印.mp4 120.13M
- | ├──第4讲Zokeeper集群搭建.mp4 59.31M
- | ├──第5讲Kafka集群搭建.mp4 112.04M
- | ├──第6讲pykafka推送hive订单数据到topic.mp4 108.03M
- | └──第7讲StructuredStreaming消费kafka数据.mp4 36.63M
- ├──第7章 SparkML快速入门
- | ├──第1讲机器学习项目python数据处理.mp4 63.07M
- | ├──第2讲SparkML向量及矩阵表示.mp4 77.21M
- | ├──第3讲SparkML中四种分布式矩阵表示.mp4 49.68M
- | ├──第4讲SparkML特征转换(1).mp4 152.06M
- | ├──第5讲SparkML特征转换(2).mp4 53.49M
- | ├──第6讲SparkMLpipline管道.mp4 79.58M
- | ├──第7讲SparkML交叉验证及网格搜索.mp4 45.13M
- | └──第8讲SparkML房价预测.mp4 130.55M
- ├──第8章 Spark性能调优
- | ├──第1讲Spark程序编写9大准则.mp4 88.12M
- | └──第2讲Spark程序性能优化8大技巧.mp4 153.25M
- ├──第9章 Clickhouse光速入门
- | ├──第10讲SSB数据分析实战.mp4 136.04M
- | ├──第11讲Catboost安装及回归分析应用.mp4 70.26M
- | ├──第12讲Catboost回归模型在clickhousesql中应用.mp4 108.09M
- | ├──第1讲Clickhouse安装及用户和密码配置.mp4 71.83M
- | ├──第2讲TinyLog、Memory、Merge引擎.mp4 56.92M
- | ├──第3讲MergeTree引擎.mp4 127.09M
- | ├──第4讲Clickhouse集群配置及分布式表.mp4 98.64M
- | ├──第5讲Clickhouse单机多实例部署.mp4 142.32M
- | ├──第6讲Clickhouse三机双实例部署.mp4 40.13M
- | ├──第7讲Clickhouse三分片两副本集群配置.mp4 59.89M
- | ├──第8讲ReplicatedMergeTree实战.mp4 82.02M
- | └──第9讲查询工具Tabix及DBeaver配置及使用.mp4 43.67M
- └──资料
- | └──资料
- | | ├──课件+代码
- | | └──spark3软件+数据+代码+课件百度网盘地址.md 0.29kb
一 本站致力于为软件爱好者提供国内外软件开发技术和软件共享,着力为用户提供优资资源;
二 本站提供的所有下载文件均为网络共享资源,请于下载后的24小时内删除。如需体验更多乐趣,还请支持正版;
三 我站提供用户下载的所有内容均转自互联网。如有内容侵犯您的版权或其他利益的,请编辑邮件并加以说明发送到站长邮箱。站长会进行审查之后,情况属实的会在三个工作日内为您删除。