主页 > 新闻资讯 > Spark计算框架:Spark功能架构模型解读

Spark计算框架:Spark功能架构模型解读

作者:张老师 浏览次数: 2020-02-11 15:02
在大数据处理上,Spark计算框架是不可忽视的一个,并且随着Spark的进一步发展,Spark计算框架也在不断地更新优化,以满足大数据领域的最新技术趋势。今天,我们就从Spark功能架构模型的角度,来仔细聊聊Spark计算框架的相关问题。

Spark是在Hadoop之后出现的,一定程度上来说,继承了Hadoop的优势,也就是分布式思想,并且在Hadoop的基础上做了优化,也就是基于实时数据处理方面的问题。

Spark计算框架

Spark生态系统,在经过这几年的发展之后,现在已经可以说趋于稳定,各个组件共同完成Spark计算任务,适用于各种不同的数据处理场景,能够完成数据处理各个环节的任务,包括数据采集、查询、处理,还有机器学习等。

Spark计算框架的功能架构模型,包含多个不同的模块:

Spark SQL:Spark自带SQL接口,支持使用SQL语句进行数据查询。

Spark Streaming:Spark基于流式计算的任务,主要就依靠Spark Streaming,通过一组API实现调用,执行对实时数据流的处理操作。

MLib:Spark的机器学习类库,提供在海量数据集上运行机器学习算法的一组API。

GraphX:Spark进行图处理的主要支持组件,图形计算的内置算法可以满足大部分的图计算需求。

除此之外,Spark还带有一个web图形用户接口,通过4040端口会启动一个web界面,用来显示任务执行情况的统计数据和详细信息。

Spark计算框架,典型的优势在于对数据流做实时分析处理,能够高效处理来个各个源头的大量数据,包括HDFS、Kafka、Flume、Twitter和ZeroMQ等,对于自定义的数据源,也能实现很好的处理。

另外,Spark在趋势数据处理上,也具有一定的优势,对于进入系统的事件流进行处理,找到某个窗口的趋势,也是Spark的强项之一。

总而言之,Spark计算框架在目前的大数据处理上,不可或缺,尤其是与Hadoop协同工作,对于更加复杂的大数据处理需求,也能很好的达成。成都加米谷大数据,大数据技术知识分享,大数据培训班2020春季班正在开班中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>