主页 > 新闻资讯 > Spark平台:Spark平台架构及生态

Spark平台:Spark平台架构及生态

作者:张老师 浏览次数: 2020-02-19 18:36
作为大数据计算领域的主流框架之一,Spark在近年来的发展当中获得的市场份额不小,这也充分说明了作为大数据计算引擎,Spark的性能得到了广泛地认可。Spark平台也在行业应用当中不断积累经验,实现更优化的数据处理。下面,我们就主要来分享一下Spark平台架构及生态相关的知识。

Spark的研发团队来自UC Berkeley AMP Lab,从一开始的定位,其实是在于解决Hadoop在数据处理上表现出来的不足,尤其是针对实时数据计算的大趋势,Hadoop的表现已经显得很吃力。

Spark平台

Spark基于Hadoop MapReduce的分布式计算思想,致力于计算性能上的提升。其中一个关键性的优化,就是将数据运算,从磁盘上转移到内存当中,一方面内存运算天然就比磁盘运算的速度更快,另一方面,Spark在运算过程中,将中间计算结果也保存在内存当中,提高数据处理效率。

除此之外,Spark平台使用最先进的DAG(Directed Acyclic Graph,有向无环图)调度程序、查询优化器和物理执行引擎,在处理批量处理以及处理流数据时具有较高的性能。

Spark平台架构,以Spark Core为核心,包括四大组件Spark SQL、Spark Streaming、MLlib、GraphX,由此构成了Spark生态。

Spark Core:是Spark的核心,主要负责任务调度等管理功能。

Spark SQL:是Spark处理结构化数据的模块,将熟悉的SQL数据库查询与更复杂的基于算法的分析相结合,支持Hive及其HiveQL查询语法。

Spark Streaming:提供对流数据的处理,支持流数据的可伸缩和容错处理,可以与Flume和Kafka等已建立的数据源集成。

MLlib:主要用于机器学习领域,提供常用的机器学习和统计算法支持,如分类、回归、聚类、主成分分析等算法。

GraphX:主要支持数据图的分析和计算,并支持图形处理的Pregel API版本。

关于Spark平台架构及生态,相信看完以上的内容,大家也都能够有比较清晰的初步了解了。事实上,Spark框架在近几年的发展当中表现非常惊人,还能与Hadoop实现集成,为企业大数据平台搭建提供重要支持。成都加米谷大数据,专业大数据培训机构,大数据开发2020春季班正在招生中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>