主页 > 新闻资讯 > 简述Hadoop工作原理:Hadoop是如何处理数据的

简述Hadoop工作原理:Hadoop是如何处理数据的

作者:张老师 浏览次数: 2020-02-12 18:47
在Hadoop系统框架当中,实现大规模数据的处理,需要各个功能模块的共同协作,而如何通过各个功能模块的协作来完成数据处理,这就涉及到Hadoop的工作原理了。今天我们就从Hadoop处理数据的过程来简述Hadoop工作原理。

在Hadoop系统当中的任务调度,我们可以理解有一个作业调度器,Hadoop任务调度,分配任务是一个“拉”的过程,即每一个TaskTracker节点主动向JobTracker节点请求作业的任务,而不是当有新作业的时候,JobTracker节点主动给TaskTracker节点分配任务。

简述Hadoop工作原理

在Hadoop集群环境运行的过程中,每个TaskTracker都要向JobTracter汇报状态信息(默认时间间隔为3秒),信息包括TaskTracker自身的状态属性、运行在TaskTracker上每个作业的状态、slot的设置情况等。

Hadoop的计算引擎MapReduce,在执行作业时的流程分为:代码编写---->作业配置---->作业提交---->Map任务分配和执行---->处理中间结果---->Reduce任务分配与执行---->输出结果。

而具体到每个作业的提交,遵循输入准备---->任务执行---->输出结果的过程:

①JobClient写代码,配置作业,提交作业。

②JobTracker:初始化作业,分配作业,协调作业运行。这是一个java程序,主类是JobTracker。

③TaskTracker:运行作业划分后的任务,即分配数据分配上执行Map或Reduce任务。

④HDFS:保存作业数据、配置信息等,保存作业结果。

再来说说MapReduce,从大概念上来说,Map和Reduce作为两种经典的函数,其实反映的是数据处理的两个阶段:映射(Map),对集合中的每个元素进行同一个操作;化简(Reduce),遍历集合中的元素来返回一个综合的结果。通过这样一个过程,Hadoop实现对于大规模数据的分而治之。

以上就是Hadoop工作原理的一个简单介绍了。Hadoop自身来说,核心的组件就是MapReduce和HDFS,Hadoop要完成时数据处理任务,这两者缺一不可。成都加米谷大数据,大数据技术知识分享,大数据培训班课程,了解课程详情可联系客服获取课程简介及大纲。
热点排行
推荐文章
立即申请>>