主页 > 新闻资讯 > Spark大数据平台:Spark平台架构解析

Spark大数据平台:Spark平台架构解析

作者:张老师 浏览次数: 2020-02-19 15:12
在大数据领域,大数据平台的搭建是企业入局大数据的第一步,而在面对各种大数据平台框架的选择上,企业尤其需要多方考量。而在近几年的发展当中,Spark大数据平台无疑是受到越来越多的企业的青睐。今天我们就主要来为大家分享一些关于Spark平台架构的知识。

Spark的发展迅速是惊人的,从诞生到正式版本的迭代成熟,仅仅几年的时间,而Spark版本迭代更新迅速,也说明座位大数据平台的Spark框架,在不断完善自身,以期能够满足大数据处理的新趋势新需求。

Spark大数据平台

Spark发展最为迅速的一年,是2015年,企业大数据平台都在陆续引入Spark。这与Spark在大数据处理上表现出来的性能和潜力有关。Spark在架构设计上的优势,带来了计算性能的提升,达到了准实时的数据计算。

Spark运行,需要多个角色联动,集群资源管理器(Cluster Manager)、多个运行作业任务的工作结点(Worker Node)、每个应用的任务控制结点(Driver)和每个工作结点上负责具体任务的执行进程(Executor)。

Spark平台运行流程如下:

1)构建Spark Application的运行环境(启动SparkContext),SparkContext向Cluster Manager注册,并申请运行Executor资源。

2)Cluster Manager为Executor分配资源并启动Executor进程,Executor运行情况将随着“心跳”发送到Cluster Manager上。

3)SparkContext构建DAG图,将DAG图分解成多个Stage,并把每个Stage的TaskSet(任务集)发送给Task Scheduler(任务调度器)。Executor向SparkContext申请Task,Task Scheduler将Task发放给Executor,同时,SparkContext将应用程序代码发放给Executor。

4)Task在Executor上运行,把执行结果反馈给Task Scheduler,然后再反馈给DAG Scheduler。运行完毕后写入数据,SparkContext向ClusterManager注销并释放所有资源。

关于Spark大数据平台,以上就是关于平台架构方面的知识分享了。Spark在大数据处理上,总体思想仍然是分布式,但是基于架构设计、运行流程的优化,实现了更优化的运行和计算。成都加米谷大数据,大数据知识分享,大数据培训班课程,更多详情可联系客服了解!
热点排行
推荐文章
立即申请>>