大数据培训：大数据处理当中的数据调度是什么

作者：张老师浏览次数： 2021-03-03 18:03

提到大数据处理，我们常常会听到的一个词，叫做数据调度。在企业级的大数据平台当中，数据存储多以数据仓库的形式去完成，因为在数据加工处理、数据报表生产等环节，就必然需要去做数据调度。今天的大数据培训分享，我们就来讲讲，数据调度是什么？

当然，数据调度作为数据处理的重要一环，也早已有了很多成熟的解决方案，例如Oozie、Airflow、Zeus、Rundeck、Azkaban等调度平台框架，也是需要逐步去学习的。

什么是数据调度？

在数据开发当中，对于数据调度，我们通常会指是“任务调度”或是“作业调度”。这里，我们先说一个概念，就是Job和Task。

Job和Task有几种不同语境下的区别：

spark语境下

在Spark中，Task是一个Job进行切割后运行的最小运算单元。一般情况下，一个rdd有多少个partition，就会有多少个Task，因为每一个Task只是处理一个partition上的数据。而Task进行组合分批后，被称为stage。Spark会为不同的stage以及不同的Task设好前后依赖，来保证整个Job运行的正确性和完整性，最后一个resultTask结束意味着Job成功运行。

Job>stage>Task

hadoop语境下

Hadoop一个作业称为一个Job，Job里面分为Map Task和Reduce Task阶段，每个Task都在自己的进程中运行，当Task结束时，进程也会随之结束。

Job>Task

某调度产品语境下

Task：一个任务。

TaskType：任务类型，如ETL、MR Job、Simple。

Job：作业，任务在运行过程中的一次执行。

综上所述，Job、Task不同语境下，他们的关系是不一样的，所以在不同的数据调度产品中，要注意他们的区别。

总结一下，数据调度，就是一个任务何时运行，何时结束以及正确的处理任务之间的依赖关系。我们需要关注的首要重点是在正确的时间点启动正确的作业，确保作业按照正确的依赖关系及时准确的执行。

数据调度产品包含什么模块？

在调度产品中，我们需要理解几个问题：

①触发机制：时间、依赖、混合

·时间即任务按时间进行调度（年/月/日/小时/分钟/秒/毫秒）

·依赖即任务按依赖关系进行调度

·混合两者相互进行调度

②工作流：任务状态（中断&运行）、任务管理or治理（类型、变更）、任务类型、任务分片。

③调度策略：就绪&超时；重试&重试次数&重试用时。

④任务隔离：任务和执行的关系等。

目前，市面上的任务调度系统有oozie、azkaban、airflow等等，此外，还有包括阿里的TBSchedule、腾讯的Lhotse、当当的elastic-Job。

我们可以按DAG工作流类、定时分片系统分为两类：

一种是DAG工作流类系统：oozie、azkaban、chronos、lhotse

一种是分片类系统：TB Schedule、elastic-Job、saturn

其中，DAG(Directed Acyclic Graph)，就是一种向无环图，是指任意一条边有方向，且不存在环路的图。

如果选择了DAG工作流这种方式，就要注意时间、完成度，保证丰富灵活的触发机制。

分片是啥？来举个例子：如果我们有3台物理机，有10个每5s执行一次的定时任务，恰恰每个任务都打到第一台机器执行。为了避免“旱的旱死，涝的涝死”，所以我们需要将任务均衡分配到当前所有可执行的物理机上，这就是所谓分片机制。常见的分片机制比如平均分配算法、hash值、轮询算法，以各种各样的算法保证对于物理机的平均“消磨”。

如果选择了分片类这种办法，就要注意准确、准时的触发。

关于大数据培训，大数据处理当中的数据调度是什么，以上就为大家做了基本的介绍了。在大数据系统平台的运行当中，数据调度是需要解决的一个重要问题，而对主流的开源产品，也建议大家都了解一下。成都加米谷大数据，专业大数据培训机构，大数据开发、数据分析与挖掘，零基础班本月正在招生中，课程大纲及学习视频，可联系客服获取！

标签：大数据培训大数据框架大数据处理

上一篇：大数据学习：Azkaban和Oozie调度系统对比
下一篇：大数据开发基础之JAVA异常

相关推荐

大家都在看

热点排行

推荐文章