培训大数据课程：Spark生态圈知识点全解

作者：张老师浏览次数： 2020-04-09 16:24

在大数据培训学习当中，大数据处理框架的学习，可以说是重中之重，知识点繁杂，涉及到整个生态圈相关的功能组件，需要花费不小的功夫。今天的培训大数据课程分享，我们主要来分享一下，Spark处理框架以及Spark生态圈相关功能组件的学习。

大数据主流的处理框架，第一代是Hadoop，Hadoop之后就当属Spark。Spark可以说是继承了Hadoop的优势性能，同时也对Hadoop的不足之处做了更优化的设计。

Spark与Hadoop之间的联系，是来自于MapReduce计算模型，这一模型在批量数据处理上，有明显的优势，但是因为MapReduce是基于磁盘进行计算，所以在数据处理速度上有很大的延迟，相比之下的Spark，将数据处理转移到内存当中进行，极大提升了数据处理的延迟性问题。

Spark高效的支撑更多计算模式，包括交互式查询和流处理。Spark生态包含了Spark Core、Spark Streaming、Spark SQL、Structured Streming和机器学习相关的库等。

学习Spark，至少应该掌握：

（1）Spark Core：

Spark的集群搭建和集群架构（Spark集群中的角色）

Spark Cluster和Client模式的区别

Spark的弹性分布式数据集RDD

Spark DAG（有向无环图）

掌握Spark RDD编程的算子API（Transformation和Action算子）

RDD的依赖关系，什么是宽依赖和窄依赖

RDD的血缘机制

Spark核心的运算机制

Spark的任务调度和资源调度

Spark的CheckPoint和容错

Spark的通信机制

Spark Shuffle原理和过程

（2）Spark Streaming：

原理剖析（源码级别）和运行机制

Spark Dstream及其API操作

Spark Streaming消费Kafka的两种方式

Spark消费Kafka消息的Offset处理

数据倾斜的处理方案

Spark Streaming的算子调优

并行度和广播变量

Shuffle调优

（3）Spark SQL：

Spark SQL的原理和运行机制

Catalyst的整体架构

Spark SQL的DataFrame

Spark SQL的优化策略：内存列式存储和内存缓存表、列存储压缩、逻辑查询优化、Join的优化

（4）Structured Streaming

Spark从2.3.0版本开始支持Structured Streaming，它是一个建立在Spark SQL引擎之上可扩展且容错的流处理引擎，统一了批处理和流处理。正是Structured Streaming的加入使得Spark在统一流、批处理方面能和Flink分庭抗礼。

关于培训大数据课程，Spark生态圈知识点，以上就是做的一个简单的学习知识点归纳了，学习大数据，Spark这一块的学习是很重要的一块，也是难度比较大的一部分，要重视起来。加米谷大数据，成都大数据培训机构，大数据开发课程班，本月即将开班，课程大纲及学习资料可联系客服获取！

标签：大数据课程培训大数据 Spark大数据

上一篇：嵌入式大数据培训：嵌入式大数据开发有前景吗
下一篇：大数据培训介绍：Hadoop框架要学习掌握些什么

相关推荐

大家都在看

热点排行

推荐文章