主页 > 新闻资讯 > 大数据spark是什么?大数据Spark的基本概念解析

大数据spark是什么?大数据Spark的基本概念解析

作者:张老师 浏览次数: 2020-02-10 18:44
在大数据领域,大数据平台搭建的主要支持技术,在于大数据计算框架的选择。其中以Spark和Hadoop等为代表的大数据计算框架,是大数据学习阶段需要掌握的重点。那么大数据spark是什么?下面我们为大家带来大数据Spark的基本概念解析。

Spark的主要优势,其实在于实时数据计算上,这其中就涉及到Spark当中非常重要的一个概念——RDD。

大数据spark是什么

RDD,全称是弹性分布式数据集(Resilient Distributed Dataset),从定义上来说,这是分布式内存的一个抽象概念,RDD是只读的,由多个partition组成,Partition分区,和Block数据块是一一对应的。

DAG,Directed Acyclic Graph(有向无环图)的简称,反映RDD之间的依赖关系。

Driver Program,控制程序,负责为Application构建DAG图。

Cluster Manager,集群资源管理中心,负责分配计算资源。

Worker Node,工作节点,负责完成具体计算。

Executor,运行在工作节点(Worker Node)上的一个进程,负责运行Task,并为应用程序存储数据。

Application,用户编写的Spark应用程序,一个Application包含多个Job。

Job,作业,一个Job包含多个RDD及作用于相应RDD上的各种操作。

Stage,阶段,是作业的基本调度单位,一个作业会分为多组任务,每组任务被称为“阶段”。

Task,任务,运行在Executor上的工作单元,是Executor中的一个线程。

在Spark进行数据处理的流程当中,Application由多个Job组成,Job由多个Stage组成,Stage由多个Task组成。Stage是作业调度的基本单位,从而实现大规模数据处理的环环相扣,快速完成。

Spark架构设计,仍然基于分布式集群,由Driver,Cluster Manager(Standalone,Yarn或Mesos),以及Worker Node组成。当系统发出数据处理任务请求时,系统遵循这个流程进行逐步的分解,最终完成大规模数据任务的处理。

关于大数据spark是什么,相信大家看完以上的极少也有了一个初步的了解了。Spark作为主流的大数据计算引擎之一,在大数据领域的重要性是不言而言的,作为从业人员,也是必须掌握的。成都加米谷大数据,专业大数据培训机构,大数据开发2020春季班正在招生中,详情可联系客服获取!
热点排行
推荐文章
立即申请>>