Spark计算框架：Spark功能架构模型解读

作者：张老师浏览次数： 2020-02-11 15:02

在大数据处理上，Spark计算框架是不可忽视的一个，并且随着Spark的进一步发展，Spark计算框架也在不断地更新优化，以满足大数据领域的最新技术趋势。今天，我们就从Spark功能架构模型的角度，来仔细聊聊Spark计算框架的相关问题。

Spark是在Hadoop之后出现的，一定程度上来说，继承了Hadoop的优势，也就是分布式思想，并且在Hadoop的基础上做了优化，也就是基于实时数据处理方面的问题。

Spark生态系统，在经过这几年的发展之后，现在已经可以说趋于稳定，各个组件共同完成Spark计算任务，适用于各种不同的数据处理场景，能够完成数据处理各个环节的任务，包括数据采集、查询、处理，还有机器学习等。

Spark计算框架的功能架构模型，包含多个不同的模块：

Spark SQL：Spark自带SQL接口，支持使用SQL语句进行数据查询。

Spark Streaming：Spark基于流式计算的任务，主要就依靠Spark Streaming，通过一组API实现调用，执行对实时数据流的处理操作。

MLib：Spark的机器学习类库，提供在海量数据集上运行机器学习算法的一组API。

GraphX：Spark进行图处理的主要支持组件，图形计算的内置算法可以满足大部分的图计算需求。

除此之外，Spark还带有一个web图形用户接口，通过4040端口会启动一个web界面，用来显示任务执行情况的统计数据和详细信息。

Spark计算框架，典型的优势在于对数据流做实时分析处理，能够高效处理来个各个源头的大量数据，包括HDFS、Kafka、Flume、Twitter和ZeroMQ等，对于自定义的数据源，也能实现很好的处理。

另外，Spark在趋势数据处理上，也具有一定的优势，对于进入系统的事件流进行处理，找到某个窗口的趋势，也是Spark的强项之一。

总而言之，Spark计算框架在目前的大数据处理上，不可或缺，尤其是与Hadoop协同工作，对于更加复杂的大数据处理需求，也能很好的达成。成都加米谷大数据，大数据技术知识分享，大数据培训班2020春季班正在开班中，详情可联系客服了解！

标签：大数据框架 Spark大数据 Spark入门

上一篇：Spark的优点：大数据Spark框架的优势
下一篇：Spark做数据分析：Spark大数据分析的优势

相关推荐

大家都在看

热点排行

推荐文章