Spark大数据平台：Spark平台架构解析

作者：张老师浏览次数： 2020-02-19 15:12

在大数据领域，大数据平台的搭建是企业入局大数据的第一步，而在面对各种大数据平台框架的选择上，企业尤其需要多方考量。而在近几年的发展当中，Spark大数据平台无疑是受到越来越多的企业的青睐。今天我们就主要来为大家分享一些关于Spark平台架构的知识。

Spark的发展迅速是惊人的，从诞生到正式版本的迭代成熟，仅仅几年的时间，而Spark版本迭代更新迅速，也说明座位大数据平台的Spark框架，在不断完善自身，以期能够满足大数据处理的新趋势新需求。

Spark发展最为迅速的一年，是2015年，企业大数据平台都在陆续引入Spark。这与Spark在大数据处理上表现出来的性能和潜力有关。Spark在架构设计上的优势，带来了计算性能的提升，达到了准实时的数据计算。

Spark运行，需要多个角色联动，集群资源管理器（Cluster Manager）、多个运行作业任务的工作结点（Worker Node）、每个应用的任务控制结点（Driver）和每个工作结点上负责具体任务的执行进程（Executor）。

Spark平台运行流程如下：

1）构建Spark Application的运行环境（启动SparkContext），SparkContext向Cluster Manager注册，并申请运行Executor资源。

2）Cluster Manager为Executor分配资源并启动Executor进程，Executor运行情况将随着“心跳”发送到Cluster Manager上。

3）SparkContext构建DAG图，将DAG图分解成多个Stage，并把每个Stage的TaskSet（任务集）发送给Task Scheduler(任务调度器）。Executor向SparkContext申请Task,Task Scheduler将Task发放给Executor,同时，SparkContext将应用程序代码发放给Executor。

4）Task在Executor上运行，把执行结果反馈给Task Scheduler，然后再反馈给DAG Scheduler。运行完毕后写入数据，SparkContext向ClusterManager注销并释放所有资源。

关于Spark大数据平台，以上就是关于平台架构方面的知识分享了。Spark在大数据处理上，总体思想仍然是分布式，但是基于架构设计、运行流程的优化，实现了更优化的运行和计算。成都加米谷大数据，大数据知识分享，大数据培训班课程，更多详情可联系客服了解！

标签：大数据架构 Spark大数据大数据平台

上一篇：Spark大数据存储：Spark数据存储解析
下一篇：Spark在大数据中的位置：Spark框架优化改进路线

相关推荐

大家都在看

热点排行

推荐文章