主页 > 新闻资讯 > Spark框架:Spark大数据处理框架简介

Spark框架:Spark大数据处理框架简介

作者:张老师 浏览次数: 2020-02-20 16:16
围绕着速度以及易用性而构建的Spark框架,在近几年的发展的当中,呈现出很强劲的竞争优势。不管是独立运行还是基于Hadoop集成运行,Spark在计算性能上的优势都得到了广泛的认可。今天,我们主要就Spark框架来为大家做一个简单的介绍。

首先,Spark的开发背景,开发团队来自加州大学伯克利分校的AMPLab,2009年开始研发,2010年总是成为Apache的开源项目之一。随着Spark的推行使用,早期的Hadoop MapReduce计算框架受到了明显的冷落。

Spark框架

Spark框架继承了MapReduce的编程模型,但是支持更多的算法,不仅限于map和reduce,这使得Spark能够满足更多场景下的大数据处理需求。并且,Spark将运算过程转移至内存当中进行,这也使得Spark的运算速度,相比MapReduce程序,有了10-100倍的速度提升,大大提升了数据处理的效率。

另外,为了Spark框架能够更通用,Spark在编程语言上除了自身的Scala,提供Java、Python、R语言API接口,支持SQL查询、流数据、机器学习和图表数据处理等。

除了Spark核心API之外,Spark生态系统还有多个组件:

Spark Streaming,基于微批量方式的计算和处理,可以用于处理实时的流数据。

Spark SQL,通过JDBC API将Spark数据集暴露出去,而且还可以用传统的BI和可视化工具在Spark数据上执行类似SQL的查询。

Spark MLlib,一个可扩展的Spark机器学习库,由通用的学习算法和工具组成,包括二元分类、线性回归、聚类、协同过滤、梯度下降以及底层优化原语。

Spark GraphX,用于图计算和并行图计算,通过引入弹性分布式属性图(Resilient Distributed Property Graph),扩展了Spark RDD。此外,GraphX还可用于简化图分析任务的图算法和构建器集合。

关于Spark框架,作为企业大数据平台的主流支持技术之一,从理论体系到技术架构,都是需要大家去掌握的,针对于整个Spark生态,也需要熟练掌握。成都加米谷大数据,大数据知识分享,大数据培训班学习,大数据开发2月班正在招生中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>