主页 > 新闻资讯 > Spark原理及运行流程

Spark原理及运行流程

作者:张老师 浏览次数: 2020-02-17 17:46
在大数据领域,进行大数据处理的主要核心思想,其实都是基于分布式架构,将小规模的数据处理任务“分而治之”,Spark也同样如此。近年来,Spark框架也在越来越多地被企业应用起来,因此大数据技术方面,掌握Spark是必须的。今天我们就主要分享一些Spark原理及运行流程。

Spark因为计算性能优异,被越来越多的大数据平台所采用,尤其是对比早期的Hadoop,Spark的计算性能得到了极大的提升,在越来越多的场景下,开始呈现出相对于MapReduce的竞争优势,又因为Spark可以与Hadoop集群实现很好的集成,近年来也是Hadoop集群调整的选择之一。

Spark原理

Spark原理,从大的方面来说,分布式思想没变,但是在计算流程中,做了一个重大的调整,MapReduce基于磁盘进行计算,而Spark基于内存进行计算,使得计算运行效率大大提高。

Spark通过DAG执行引擎,支持在内存中对数据进行迭代计算。对比MapReduce的基于磁盘运算,Spark从内存读取数据,可以实现10-100倍的速度提升。

尤其是近年来的实时数据流处理、图计算和机器学习的流行,这些场景下的大数据处理,要求实现接近实时的数据处理,Spark的出现,可以说正是为了解决这些问题而生。另外,Spark支持80种以上的高级算子,支持多种语言,数据源丰富,可部署在多种集群中,这也使得起企业部署Spark变得更加容易。

Spark架构采用的是分布式计算中的Master-Slave模型,因此Spark运行流程也是按照主从结构来的。

Master是对应集群中的含有Master进程的节点,Slave是集群中含有Worker进程的节点。Master作为整个集群的控制器,负责整个集群的正常运行;Worker相当于计算节点,接收主节点命令与进行状态汇报;Executor负责任务的执行;Client作为用户的客户端负责提交应用;Driver负责控制一个应用的执行。

关于Spark原理及运行流程,以上就是简单的介绍了,相信大家看完之后,也有了一个基础的了解。随着Spark的优异性能被越来越多的人认识到,Spark也将在更多的场景实现落地应用,掌握Spark技术势在必行。成都加米谷大数据,大数据培训班常年开班中,课程大纲可联系客服获取!
热点排行
推荐文章
立即申请>>