大数据spark是什么？大数据Spark的基本概念解析

作者：张老师浏览次数： 2020-02-10 18:44

在大数据领域，大数据平台搭建的主要支持技术，在于大数据计算框架的选择。其中以Spark和Hadoop等为代表的大数据计算框架，是大数据学习阶段需要掌握的重点。那么大数据spark是什么？下面我们为大家带来大数据Spark的基本概念解析。

Spark的主要优势，其实在于实时数据计算上，这其中就涉及到Spark当中非常重要的一个概念——RDD。

RDD，全称是弹性分布式数据集（Resilient Distributed Dataset），从定义上来说，这是分布式内存的一个抽象概念，RDD是只读的，由多个partition组成，Partition分区，和Block数据块是一一对应的。

DAG，Directed Acyclic Graph（有向无环图）的简称，反映RDD之间的依赖关系。

Driver Program，控制程序，负责为Application构建DAG图。

Cluster Manager，集群资源管理中心，负责分配计算资源。

Worker Node，工作节点，负责完成具体计算。

Executor，运行在工作节点（Worker Node）上的一个进程，负责运行Task，并为应用程序存储数据。

Application，用户编写的Spark应用程序，一个Application包含多个Job。

Job，作业，一个Job包含多个RDD及作用于相应RDD上的各种操作。

Stage，阶段，是作业的基本调度单位，一个作业会分为多组任务，每组任务被称为“阶段”。

Task，任务，运行在Executor上的工作单元，是Executor中的一个线程。

在Spark进行数据处理的流程当中，Application由多个Job组成，Job由多个Stage组成，Stage由多个Task组成。Stage是作业调度的基本单位，从而实现大规模数据处理的环环相扣，快速完成。

Spark架构设计，仍然基于分布式集群，由Driver,Cluster Manager（Standalone,Yarn或Mesos），以及Worker Node组成。当系统发出数据处理任务请求时，系统遵循这个流程进行逐步的分解，最终完成大规模数据任务的处理。

关于大数据spark是什么，相信大家看完以上的极少也有了一个初步的了解了。Spark作为主流的大数据计算引擎之一，在大数据领域的重要性是不言而言的，作为从业人员，也是必须掌握的。成都加米谷大数据，专业大数据培训机构，大数据开发2020春季班正在招生中，详情可联系客服获取！

标签：大数据学习 Spark大数据 Spark入门

上一篇：Spark要学多久？Spark大数据学习分享
下一篇：国内spark发展：Spark大数据的优势

相关推荐

大家都在看

热点排行

推荐文章