主页 > 新闻资讯 > Hadoop开发培训:Hadoop大数据核心架构解析

Hadoop开发培训:Hadoop大数据核心架构解析

作者:张老师 浏览次数: 2020-01-16 11:43
大数据方向的技术培训,少不了Hadoop开发培训,作为目前主流运用的大数据框架,Hadoop是作为大数据开发者必须掌握的核心技能。整个Hadoop框架体系,不断发展完善,现今已经形成完备的生态系统,怎么学,我们先从Hadoop大数据核心架构开始讲起。

Hadoop大数据框架当中的核心,其实就是HDFS和MapReduce,还有一个负责资源调度的Yarn,基本上这三者结合起来,对于大数据处理的任务,都能比较快速高效地完成。

Hadoop开发培训

HDFS和MapReduce就是Hadoop的核心架构。我们先来说HDFS。

HDFS是分布式文件系统,负责将引入Hadoop当中的数据进行分布式存储,怎么实现的呢?

HDFS是典型的主从架构,其中有三个重要的角色:NameNode(名称节点)、DataNode(数据节点)和Client(客户机),就是这三者的配合,来实现大规模数据存储任务的存入和读取。

NameNode是主节点,也是整个HDFS的管理者,负责管理文件系统的命名空间、集群配置信息和存储块的复制等;

DataNode是从节点,也是文件存储的基本单元,它将Block存储在本地文件系统中,并且周期性地将所有存在的Block信息发送给NameNode;

Client呢,可以说是个“中间人”,负责切分文件;访问HDFS;与NameNode交互,获得文件位置信息;与DataNode交互,读取和写入数据。 

再来看MapReduce。

MapReduce是分布式计算框架,也是一个编程模型,所有基于Hadoop上的数据处理任务,都需要转换成MapReduce任务来进行。

MapReduce的核心步骤分为两个部分,Map(映射)和Reduce(归约)。

当用户向MapReduce框架提交数据处理任务时,它首先将任务拆分成若干个Map任务,然后分配到不同的节点上去执行;当Map任务完成后,它会生成一些中间文件,成为下一步Reduce任务的输入数据,Reduce将若干个Map的输出汇总到一起并输出,这样就完成了一次MapReduce任务。

在Hadoop开发培训当中,Hadoop大数据核心架构的学习是非常重要的一部分,掌握了这一部分,基本上也就对于Hadoop大数据处理的理论和实现有了清晰的认识。成都加米谷大数据,专业大数据培训机构,多年专注大数据人才培养,详情可联系客服了解!
热点排行
推荐文章
立即申请>>