主页 > 新闻资讯 > Spark从入门到精通:Spark学习路线规划

Spark从入门到精通:Spark学习路线规划

作者:张老师 浏览次数: 2020-02-14 17:20
作为大数据领域占据着越来越重要地位的计算框架,Spark也逐渐成为大数据技术开发人员们被要求具备的基本技能之一,越来越多的职位在招聘的JD上清清楚楚地写出Spark的要求,这是大趋势。想要Spark从入门到精通,今天我们就给大家分享一份Spark学习路线规划。

Spark从入门到精通

阶段一:编程语言基础

学习Spark,Scala和Java语言是至少要掌握的两种语言之一,Scala是Spark框架的编程语言,通过Scala编程这是没话说的。尤其是想要精通Spark,阅读Spark的源代码是必须的,那么掌握Scala也是必须的,尤其要熟练掌握Scala的trait、apply、函数式编程、泛型、逆变与协变等。

而Java语言,则是因为Spark提供高级API接口,可以实现Java语言编程,不仅Java,Python也是可以的,但是从广泛度上来说,Java的群众基础可能更高。Java编程,要求掌握JAVA语言多线程,netty,rpc,ClassLoader,运行环境等(源码需要)。

阶段二:掌握Spark平台API

这一阶段,需要掌握Spark中面向RDD的开发模式部署模式:本地(调试),Standalone,yarn等,掌握各种transformation和action函数的使用;

其次是掌握Spark中的宽依赖和窄依赖以及lineage机制;掌握RDD的计算流程,例如Stage的划分、Spark应用程序提交给集群的基本过程和Worker节点基础的工作原理等。

熟练掌握spark on yarn的机制原理及调优

阶段三:Spark core深入学习

这一阶段涉及到比较多的源码研读,需要通过源码掌握Spark的任务提交过程;Spark集群的任务调度;DAGScheduler、TaskScheduler,Driver和Executor节点工作流程;Driver和Executor的运行环境及RPC过程;缓存RDD,Checkpoint,Shuffle等缓存或者暂存垃圾清除机制以及Shuffle原理源码及调优等。

阶段四:Spark Streaming流式计算

这一阶段,需要掌握Spark Streaming框架,包括DStream、transformation和checkpoint;kafka与spark Streaming结合的两种方式及调优方式;Structured Streaming原理及作用并且要掌握其余kafka结合;SparkStreaming的源码尤其是和kafka结合的两种方式的源码原理等。

阶段五:掌握Spark SQL

这一阶段要求掌握Dataset的概念及与RDD的区别,各种算子;要掌握存储格式及性能对比;也要熟悉它的优化器catalyst的工作原理以及Spark Sql的dataset的链式计算原理,逻辑计划翻译成物理计划的源码等。

以上就是关于Spark从入门到精通的学习路线分享了,当然这只是针对于Spark框架的大概知识点的介绍,具体到每个知识点,深入进去还有更多的细节需要掌握。另外,Spark还有机器学习、图计算框架,后续提升还需要继续学习。成都加米谷大数据,专业大数据培训机构,大数据开发2020春季班正在招生中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>