主页 > 新闻资讯 > Spark概念:Spark核心组件概念解析

Spark概念:Spark核心组件概念解析

作者:张老师 浏览次数: 2020-02-18 17:29
Spark框架一直以来以简洁通用为特征,在众多的大数据处理引擎当中,计算性能表现优异,尤其是针对Hadoop的MapReduce框架,Spark的计算运行可以说是实现了成倍的速度提升,更加适应于现阶段的大数据处理需求。今天,我们主要对Spark概念,尤其是几个核心组件的概念,来给大家做个解析。

Spark概念

首先,Spark Core,这是整个Spark框架的核心部分,负责内存管理和故障恢复、制定并管理集群中的任务、和数据储存系统交互等相关的任务,为整个系统提供底层支持。并且,Spark Core引入了关键的RDD数据模型。

RDD定义为弹性分布式数据集,是一个抽象的概念,它提供对数据并行和容错的处理。对于整个Spark框架当中的数据,都以RDD来描述,RDD可以加载外部数据集或从驱动程序集中切分得到。

RDD支持两种类型的运算,数据转换(Transformations)和数据运算(Actions)。

数据转换(数据映射、过滤、合并等)在一个RDD上执行,而其结果被储存到另外一个RDD中;数据运算(降维、计数等)则是通过在RDD中计算后才返回相应的结果。

Spark SQL,是Spark生态的重要组件,可以通过SQL或者Hive查询语法来查询数据,实现高效的交互式数据查询。

Spark Streaming,是Spark的流处理引组件,支持实时流式数据处理,比如Web服务器日志文件、Twitter等社交网络数据和类似Kafka的信息数据。Spark Streaming接收输入流数据并将其划分成小子集,供给系统进行计算整合,得出最终结果。

MLlib,是Spark的机器学习库,提供分类、回归、聚类和协同过滤等机器学习算法,其中部分算法也支持流式数据处理,比如普通线性二乘回归估计和k均值聚类算法。

GraphX,是Spark用于绘图和执行绘图并行计算的组件库,为ETL(探索性分析和反复的绘图计算)提供了一套统一的工具。

关于Spark概念,从核心到各个组件,其实都非常清晰明了,尤其是相对于像Hadoop那样二十几个组件的系统,Spark真的算得上是简洁了,但这并不代表着Spark简单,总之学习来还是要好好下功夫才行。成都加米谷大数据,大数据知识分享,大数据培训班课程,更多详情可联系客服了解!
热点排行
推荐文章
立即申请>>