简述Hadoop工作原理：Hadoop是如何处理数据的

作者：张老师浏览次数： 2020-02-12 18:47

在Hadoop系统框架当中，实现大规模数据的处理，需要各个功能模块的共同协作，而如何通过各个功能模块的协作来完成数据处理，这就涉及到Hadoop的工作原理了。今天我们就从Hadoop处理数据的过程来简述Hadoop工作原理。

在Hadoop系统当中的任务调度，我们可以理解有一个作业调度器，Hadoop任务调度，分配任务是一个“拉”的过程，即每一个TaskTracker节点主动向JobTracker节点请求作业的任务，而不是当有新作业的时候，JobTracker节点主动给TaskTracker节点分配任务。

在Hadoop集群环境运行的过程中，每个TaskTracker都要向JobTracter汇报状态信息(默认时间间隔为3秒)，信息包括TaskTracker自身的状态属性、运行在TaskTracker上每个作业的状态、slot的设置情况等。

Hadoop的计算引擎MapReduce，在执行作业时的流程分为：代码编写---->作业配置---->作业提交---->Map任务分配和执行---->处理中间结果---->Reduce任务分配与执行---->输出结果。

而具体到每个作业的提交，遵循输入准备---->任务执行---->输出结果的过程：

①JobClient写代码，配置作业，提交作业。

②JobTracker:初始化作业，分配作业，协调作业运行。这是一个java程序，主类是JobTracker。

③TaskTracker：运行作业划分后的任务，即分配数据分配上执行Map或Reduce任务。

④HDFS：保存作业数据、配置信息等，保存作业结果。

再来说说MapReduce，从大概念上来说，Map和Reduce作为两种经典的函数，其实反映的是数据处理的两个阶段：映射（Map)，对集合中的每个元素进行同一个操作；化简（Reduce)，遍历集合中的元素来返回一个综合的结果。通过这样一个过程，Hadoop实现对于大规模数据的分而治之。

以上就是Hadoop工作原理的一个简单介绍了。Hadoop自身来说，核心的组件就是MapReduce和HDFS，Hadoop要完成时数据处理任务，这两者缺一不可。成都加米谷大数据，大数据技术知识分享，大数据培训班课程，了解课程详情可联系客服获取课程简介及大纲。

标签： Hadoop 大数据处理 Hadoop大数据

上一篇：Hbase和Hive的区别：Hadoop数据存储分析
下一篇：Spark安装部署：如何安装Spark

相关推荐

大家都在看

热点排行

推荐文章