主页 > 新闻资讯 > Spark课程大纲:Spark学习课程分享

Spark课程大纲:Spark学习课程分享

作者:张老师 浏览次数: 2020-02-06 14:31
在大数据处理框架当中,Spark发展至今,也得到了广泛地普及推广,对于专业技术人才的需求也在进一步增长。想要进入大数据行业,掌握Spark这个必备技能,也将具备更大的竞争力。今天我们就从Spark课程大纲的角度出发,为大家分享一些相关的知识。

Spark发展至今,也有了完善的生态系统,基于内存计算,多迭代批量处理数据,在数据仓库、流处理和图计算等多个方面,都具备很强的实力。而学习Spark,依然需要从最基础的编程语言开始。

Spark课程大纲

学习Spark之前,掌握Scala和Java语言是基础的要求,因为Spark框架的编程语言是Scala,要看懂Spark的源码,必须掌握Scala。而Java语言,多线程、netty、rpc、ClassLoader、运行环境等,也都是读懂源码的辅助语言。

Spark课程大纲:

阶段一:掌握Spark平台API

掌握Spark中面向RDD的开发模式部署模式:本地(调试),Standalone,yarn等,掌握各种transformation和action函数的使用;掌握Spark中的宽依赖和窄依赖以及lineage机制;掌握RDD的计算流程,例如Stage的划分、Spark应用程序提交给集群的基本过程和Worker节点基础的工作原理等。

阶段二:Spark核心提升

掌握Spark内核部分,包括Spark的任务提交过程、Spark集群的任务调度、Driver和Executor的运行环境及RPC过程、缓存RDD,Checkpoint,Shuffle等缓存或者暂存垃圾清除机制;熟练掌握Shuffle原理源码及调优等。

阶段三:Spark Streaming

掌握DStream、transformation和checkpoint、kafka与spark Streaming结合的两种方式及调优方式、Structured Streaming原理及作用、spark Streaming的web ui及各个指标等。

阶段四:Spark SQL

掌握Dataset的概念及与RDD的区别,各种算子;掌握存储格式及性能对比;优化器catalyst的工作原理等。

阶段五:Spark机器学习及图计算

掌握spark ml/mllib spark自带的机器学习库;开源的深度学习及nlp等框架;以及pyspark,spark与TensorFlow结合等。

以上就是关于Spark课程大纲的部分分享了,当然这其实是非常简单粗略的概括,在实际的Spark学习上,可能面临各种的问题,还需要大家做好准备,一一去掌握和克服。成都加米谷大数据,专业大数据课程培训,大数据开发2020春季班,正在招生中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>