主页 > 新闻资讯 > 培训大数据课程:Spark生态圈知识点全解

培训大数据课程:Spark生态圈知识点全解

作者:张老师 浏览次数: 2020-04-09 16:24
在大数据培训学习当中,大数据处理框架的学习,可以说是重中之重,知识点繁杂,涉及到整个生态圈相关的功能组件,需要花费不小的功夫。今天的培训大数据课程分享,我们主要来分享一下,Spark处理框架以及Spark生态圈相关功能组件的学习。

大数据主流的处理框架,第一代是Hadoop,Hadoop之后就当属Spark。Spark可以说是继承了Hadoop的优势性能,同时也对Hadoop的不足之处做了更优化的设计。

培训大数据课程

Spark与Hadoop之间的联系,是来自于MapReduce计算模型,这一模型在批量数据处理上,有明显的优势,但是因为MapReduce是基于磁盘进行计算,所以在数据处理速度上有很大的延迟,相比之下的Spark,将数据处理转移到内存当中进行,极大提升了数据处理的延迟性问题。

Spark高效的支撑更多计算模式,包括交互式查询和流处理。Spark生态包含了Spark Core、Spark Streaming、Spark SQL、Structured Streming和机器学习相关的库等。

学习Spark,至少应该掌握:

(1)Spark Core:

Spark的集群搭建和集群架构(Spark集群中的角色)

Spark Cluster和Client模式的区别

Spark的弹性分布式数据集RDD

Spark DAG(有向无环图)

掌握Spark RDD编程的算子API(Transformation和Action算子)

RDD的依赖关系,什么是宽依赖和窄依赖

RDD的血缘机制

Spark核心的运算机制

Spark的任务调度和资源调度

Spark的CheckPoint和容错

Spark的通信机制

Spark Shuffle原理和过程

(2)Spark Streaming:

原理剖析(源码级别)和运行机制

Spark Dstream及其API操作

Spark Streaming消费Kafka的两种方式

Spark消费Kafka消息的Offset处理

数据倾斜的处理方案

Spark Streaming的算子调优

并行度和广播变量

Shuffle调优

(3)Spark SQL:

Spark SQL的原理和运行机制

Catalyst的整体架构

Spark SQL的DataFrame

Spark SQL的优化策略:内存列式存储和内存缓存表、列存储压缩、逻辑查询优化、Join的优化

(4)Structured Streaming

Spark从2.3.0版本开始支持Structured Streaming,它是一个建立在Spark SQL引擎之上可扩展且容错的流处理引擎,统一了批处理和流处理。正是Structured Streaming的加入使得Spark在统一流、批处理方面能和Flink分庭抗礼。

关于培训大数据课程,Spark生态圈知识点,以上就是做的一个简单的学习知识点归纳了,学习大数据,Spark这一块的学习是很重要的一块,也是难度比较大的一部分,要重视起来。加米谷大数据,成都大数据培训机构,大数据开发课程班,本月即将开班,课程大纲及学习资料可联系客服获取!
热点排行
推荐文章
立即申请>>