主页 > 新闻资讯 > Spark入门到精通:Spark学习路线规划

Spark入门到精通:Spark学习路线规划

作者:张老师 浏览次数: 2020-02-07 18:44
学习大数据,Spark技术体系是大家都必须要掌握的核心重点之一,而Spark入门到精通,是一个长期坚持的过程。作为现如今主流的大数据计算引擎之一,Spark技术也是作为大数据从业人员所必须战掌握的。下面我们就为大家分享一份Spark学习路线。

Spark最初来自加州大学伯克利分校AMPLab,作为集群计算平台,基于内存计算,相比于Hadoop的基于磁盘计算,在计算性能上得到极大的提升。Spark采用一个统一的技术堆栈,解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,因此在大数据计算领域受到极高的推崇。

Spark入门到精通

Spark入门到精通,是一个循序渐进学习的过程。

阶段一:Scala语言基础

Spark框架的编程语言就是Scala,而读懂Spark的源代码,是学习Spark基础当中的重点。虽然是Spark也可以Java、Python等语言进行开发,但是最快速的和支持最好的依然是Scala。所以Spark学习的语言基础,还是首推Scala。

阶段二:掌握Spark平台各个API

掌握Spark中面向RDD的开发模式,掌握各种transformation和action函数的使用;掌握Spark中的宽依赖和窄依赖以及lineage机制;掌握RDD的计算流程,例如Stage的划分、Spark应用程序提交给集群的基本过程和Worker节点基础的工作原理等。

阶段三:Spark内核深入

通过Spark框架的源码研读来深入Spark内核部分,包括Spark的任务提交过程、Spark集群的任务调度、DAGScheduler、TaskScheduler和Worker节点内部的工作的每一步的细节等。

阶段四:Spark核心框架使用

实时流处理、图技术、机器学习、NoSQL查询等核心组件框架,也是必须掌握的,包括Shark、Spark Streaming等。

Spark Streaming的DStream、transformation和checkpoint等;Spark的离线统计分析功能;Spark的机器学习和GraphX原理和用法等。

Spark从入门到精通是一个需要长期积累的过程,不管是理论上还是项目实操上,都是要靠经验技术的积累的。在打好基础之后,可以尝试去了解和实操商业级别的Spark项目,提供Spark解决方案等,磨炼自己的技术实力。成都加米谷大数据,专业大数据培训机构,大数据开发2020春季班正在招生中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>