Spark框架：Spark大数据处理框架简介

作者：张老师浏览次数： 2020-02-20 16:16

围绕着速度以及易用性而构建的Spark框架，在近几年的发展的当中，呈现出很强劲的竞争优势。不管是独立运行还是基于Hadoop集成运行，Spark在计算性能上的优势都得到了广泛的认可。今天，我们主要就Spark框架来为大家做一个简单的介绍。

首先，Spark的开发背景，开发团队来自加州大学伯克利分校的AMPLab，2009年开始研发，2010年总是成为Apache的开源项目之一。随着Spark的推行使用，早期的Hadoop MapReduce计算框架受到了明显的冷落。

Spark框架继承了MapReduce的编程模型，但是支持更多的算法，不仅限于map和reduce，这使得Spark能够满足更多场景下的大数据处理需求。并且，Spark将运算过程转移至内存当中进行，这也使得Spark的运算速度，相比MapReduce程序，有了10-100倍的速度提升，大大提升了数据处理的效率。

另外，为了Spark框架能够更通用，Spark在编程语言上除了自身的Scala，提供Java、Python、R语言API接口，支持SQL查询、流数据、机器学习和图表数据处理等。

除了Spark核心API之外，Spark生态系统还有多个组件：

Spark Streaming，基于微批量方式的计算和处理，可以用于处理实时的流数据。

Spark SQL，通过JDBC API将Spark数据集暴露出去，而且还可以用传统的BI和可视化工具在Spark数据上执行类似SQL的查询。

Spark MLlib，一个可扩展的Spark机器学习库，由通用的学习算法和工具组成，包括二元分类、线性回归、聚类、协同过滤、梯度下降以及底层优化原语。

Spark GraphX，用于图计算和并行图计算，通过引入弹性分布式属性图（Resilient Distributed Property Graph），扩展了Spark RDD。此外，GraphX还可用于简化图分析任务的图算法和构建器集合。

关于Spark框架，作为企业大数据平台的主流支持技术之一，从理论体系到技术架构，都是需要大家去掌握的，针对于整个Spark生态，也需要熟练掌握。成都加米谷大数据，大数据知识分享，大数据培训班学习，大数据开发2月班正在招生中，详情可联系客服了解！

标签：大数据框架大数据处理 Spark大数据

上一篇：Spark平台：Spark平台架构及生态
下一篇：Spark开发语言：Scala与Python相比如何？

相关推荐

大家都在看

热点排行

推荐文章