Spark的基本构架：Spark架构系统简介

作者：张老师浏览次数： 2020-02-07 18:41

作为大数据领域受到广泛关注的大数据处理框架，Spark在近年来的发展态势也越来越好，作为开源的数据处理框架，因其低廉的成本，也成为不少企业的选择。今天，我们就从Spark的基本架构的角度，来聊聊Spark架构系统的相关知识。

在Spark出现之前，大数据计算领域最受到广泛重用的，是Hadoop，而Hadoop生态当中的分布式计算框架，就是大家所熟知的MapReduce，Spark和MapReduce都时分布式计算框架，那么为什么还会在有了MapReduce之后，又出现了Spark呢？

这里就要提到两个重要的技术概念，批处理和实时处理。

Hadoop的分布式计算框架MapReduce，就是基于批处理的概念，在批量处理大规模数据上具有明显的优势；

Spark的分布式计算，则是基于实时处理的概念，在数据处理任务时，能够实现更少延迟地计算出数据结果，有明显的低延迟优势。

并且在2014年之后，Spark在批处理性能上也有很大的提升，根据理论计算，Spark可以实现比Hadoop MapReduce快100％的计算运行，从而在大数据实时处理上具有了超过其他框架的优势。

Spark的基本架构，相比Hadoop生态也要简洁得多，包括Spark Core、Spark Streaming、Spark SQL、GraphX、MLlib等几个系统组件。

Spark Core，核心是分布式执行引擎，负责内存管理和故障恢复、集群调度分发和监视作业、与存储系统交互等，可以通过Java，Scala和Python API为分布式ETL应用程序开发提供平台，允许流式传输，SQL和机器学习的各种工作负载。

Spark Streaming，实时流数据处理，作为核心Spark API的补充，支持实时数据流的高吞吐量和容错流处理。

Spark Streaming是Spark的组件，用于处理。因此，它是。它支持。基本流单元是DStream，它基本上是一系列用于处理实时数据的RDD（弹性分布式数据集）。

Spark SQL，使用Spark编程API实现集成关系处理，支持通过SQL或Hive查询查询数据。

GraphX，用于图形和图形并行计算的Spark API

MLlib，用于在Apache Spark中执行机器学习。

以上就是关于Spark的基本架构的简单介绍了，目前来说Spark作为大数据计算框架，尤其在实时数据计算上具有极大的优势，未来的成长空间也很大。成都加米谷大数据，大数据技术知识分享，大数据培训班每月开班中，详情可联系客服了解！

标签：大数据计算大数据架构 Spark大数据

上一篇：Spark与hadoop的优势：大数据处理框架的对比
下一篇：Spark入门教材：Spark入门基础理论分享

相关推荐

大家都在看

热点排行

推荐文章