在大数据培训学习当中,大数据处理框架的学习,可以说是重中之重,知识点繁杂,涉及到整个生态圈相关的功能组件,需要花费不小的功夫。今天的培训大数据课程分享,我们主要来分享一下,Spark处理框架以及Spark生态圈相关功能组件的学习。
大数据主流的处理框架,第一代是Hadoop,Hadoop之后就当属Spark。Spark可以说是继承了Hadoop的优势性能,同时也对Hadoop的不足之处做了更优化的设计。
Spark与Hadoop之间的联系,是来自于MapReduce计算模型,这一模型在批量数据处理上,有明显的优势,但是因为MapReduce是基于磁盘进行计算,所以在数据处理速度上有很大的延迟,相比之下的Spark,将数据处理转移到内存当中进行,极大提升了数据处理的延迟性问题。
Spark高效的支撑更多计算模式,包括交互式查询和流处理。Spark生态包含了Spark Core、Spark Streaming、Spark SQL、Structured Streming和机器学习相关的库等。
学习Spark,至少应该掌握:
(1)Spark Core:
Spark的集群搭建和集群架构(Spark集群中的角色)
Spark Cluster和Client模式的区别
Spark的弹性分布式数据集RDD
Spark DAG(有向无环图)
掌握Spark RDD编程的算子API(Transformation和Action算子)
RDD的依赖关系,什么是宽依赖和窄依赖
RDD的血缘机制
Spark核心的运算机制
Spark的任务调度和资源调度
Spark的CheckPoint和容错
Spark的通信机制
Spark Shuffle原理和过程
(2)Spark Streaming:
原理剖析(源码级别)和运行机制
Spark Dstream及其API操作
Spark Streaming消费Kafka的两种方式
Spark消费Kafka消息的Offset处理
数据倾斜的处理方案
Spark Streaming的算子调优
并行度和广播变量
Shuffle调优
(3)Spark SQL:
Spark SQL的原理和运行机制
Catalyst的整体架构
Spark SQL的DataFrame
Spark SQL的优化策略:内存列式存储和内存缓存表、列存储压缩、逻辑查询优化、Join的优化
(4)Structured Streaming
Spark从2.3.0版本开始支持Structured Streaming,它是一个建立在Spark SQL引擎之上可扩展且容错的流处理引擎,统一了批处理和流处理。正是Structured Streaming的加入使得Spark在统一流、批处理方面能和Flink分庭抗礼。
关于培训大数据课程,Spark生态圈知识点,以上就是做的一个简单的学习知识点归纳了,学习大数据,Spark这一块的学习是很重要的一块,也是难度比较大的一部分,要重视起来。加米谷大数据,
成都大数据培训机构,大数据开发课程班,本月即将开班,课程大纲及学习资料可联系客服获取!