主页 > 新闻资讯 > Spark的基本构架:Spark架构系统简介

Spark的基本构架:Spark架构系统简介

作者:张老师 浏览次数: 2020-02-07 18:41
作为大数据领域受到广泛关注的大数据处理框架,Spark在近年来的发展态势也越来越好,作为开源的数据处理框架,因其低廉的成本,也成为不少企业的选择。今天,我们就从Spark的基本架构的角度,来聊聊Spark架构系统的相关知识。

在Spark出现之前,大数据计算领域最受到广泛重用的,是Hadoop,而Hadoop生态当中的分布式计算框架,就是大家所熟知的MapReduce,Spark和MapReduce都时分布式计算框架,那么为什么还会在有了MapReduce之后,又出现了Spark呢?

Spark的基本构架

这里就要提到两个重要的技术概念,批处理和实时处理。

Hadoop的分布式计算框架MapReduce,就是基于批处理的概念,在批量处理大规模数据上具有明显的优势;

Spark的分布式计算,则是基于实时处理的概念,在数据处理任务时,能够实现更少延迟地计算出数据结果,有明显的低延迟优势。

并且在2014年之后,Spark在批处理性能上也有很大的提升,根据理论计算,Spark可以实现比Hadoop MapReduce快100%的计算运行,从而在大数据实时处理上具有了超过其他框架的优势。

Spark的基本架构,相比Hadoop生态也要简洁得多,包括Spark Core、Spark Streaming、Spark SQL、GraphX、MLlib等几个系统组件。

Spark Core,核心是分布式执行引擎,负责内存管理和故障恢复、集群调度分发和监视作业、与存储系统交互等,可以通过Java,Scala和Python API为分布式ETL应用程序开发提供平台,允许流式传输,SQL和机器学习的各种工作负载。

Spark Streaming,实时流数据处理,作为核心Spark API的补充,支持实时数据流的高吞吐量和容错流处理。

Spark Streaming是Spark的组件,用于处理。因此,它是。它支持。基本流单元是DStream,它基本上是一系列用于处理实时数据的RDD(弹性分布式数据集)。

Spark SQL,使用Spark编程API实现集成关系处理,支持通过SQL或Hive查询查询数据。

GraphX,用于图形和图形并行计算的Spark API

MLlib,用于在Apache Spark中执行机器学习。

以上就是关于Spark的基本架构的简单介绍了,目前来说Spark作为大数据计算框架,尤其在实时数据计算上具有极大的优势,未来的成长空间也很大。成都加米谷大数据,大数据技术知识分享,大数据培训班每月开班中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>