Spark概念：Spark核心组件概念解析

作者：张老师浏览次数： 2020-02-18 17:29

Spark框架一直以来以简洁通用为特征，在众多的大数据处理引擎当中，计算性能表现优异，尤其是针对Hadoop的MapReduce框架，Spark的计算运行可以说是实现了成倍的速度提升，更加适应于现阶段的大数据处理需求。今天，我们主要对Spark概念，尤其是几个核心组件的概念，来给大家做个解析。

首先，Spark Core，这是整个Spark框架的核心部分，负责内存管理和故障恢复、制定并管理集群中的任务、和数据储存系统交互等相关的任务，为整个系统提供底层支持。并且，Spark Core引入了关键的RDD数据模型。

RDD定义为弹性分布式数据集，是一个抽象的概念，它提供对数据并行和容错的处理。对于整个Spark框架当中的数据，都以RDD来描述，RDD可以加载外部数据集或从驱动程序集中切分得到。

RDD支持两种类型的运算，数据转换（Transformations）和数据运算（Actions）。

数据转换(数据映射、过滤、合并等)在一个RDD上执行，而其结果被储存到另外一个RDD中；数据运算(降维、计数等)则是通过在RDD中计算后才返回相应的结果。

Spark SQL，是Spark生态的重要组件，可以通过SQL或者Hive查询语法来查询数据，实现高效的交互式数据查询。

Spark Streaming，是Spark的流处理引组件，支持实时流式数据处理，比如Web服务器日志文件、Twitter等社交网络数据和类似Kafka的信息数据。Spark Streaming接收输入流数据并将其划分成小子集，供给系统进行计算整合，得出最终结果。

MLlib，是Spark的机器学习库，提供分类、回归、聚类和协同过滤等机器学习算法，其中部分算法也支持流式数据处理，比如普通线性二乘回归估计和k均值聚类算法。

GraphX，是Spark用于绘图和执行绘图并行计算的组件库，为ETL(探索性分析和反复的绘图计算)提供了一套统一的工具。

关于Spark概念，从核心到各个组件，其实都非常清晰明了，尤其是相对于像Hadoop那样二十几个组件的系统，Spark真的算得上是简洁了，但这并不代表着Spark简单，总之学习来还是要好好下功夫才行。成都加米谷大数据，大数据知识分享，大数据培训班课程，更多详情可联系客服了解！

标签：大数据入门 Spark大数据 Spark入门

上一篇：Spark实时处理流程：Spark数据计算流程
下一篇：Hadoop和Kafka啥关系？Hadoop Kafka简介

相关推荐

大家都在看

热点排行

推荐文章