主页 > 新闻资讯 > Hadoop架构与原理:Hadoop系统架构原理解析

Hadoop架构与原理:Hadoop系统架构原理解析

作者:张老师 浏览次数: 2020-01-08 16:02
作为现今主流被运用的大数据系统框架,Hadoop架构是大数据技术学习阶段必要掌握的重点之一。而学习Hadoop技术,我们需要对Hadoop架构与原理有一个基本的认识,了解清楚这些原理,才能在大数据开发工作当中实现更灵活的运用。

Hadoop架构当中,需要理解的关键性原理,就是分布式技术。分布式技术,解决了大数据处理当中很大的一个难题,那就是在低廉的硬件系统上,实现对于海量数据的高效准确的处理。

Hadoop架构与原理

分布式技术,其实简单来说,就是在几台甚至是几十台的普通计算机上搭建起计算机集群,对于海量的数据任务,将整个任务切割分块,分配到计算机集群当中的各台电脑上去处理,所有的小块数据处理任务完成之后,再将所有的处理结果综合起来,实现对海量数据的处理。

Hadoop架构当中,最核心关键的模块,是HDFS和MapReduce,前者是分布式文件系统,负责海量数据的存储任务,后者是分布式计算框架,负责海量数据的计算分析,这两者结合起来,基本上能够解决90%的企业大数据处理需求。

具体来说,HDFS采用master/slave架构。一个HDFS集群包含一个单独的NameNode和多个DataNode。

NameNode会保存文件系统的具体信息,包括文件信息、文件被分割成具体block块的信息、以及每一个block块归属的DataNode的信息。DataNode负责管理节点上它们拥有的存储,它将存储划分为多个block块,管理block块信息,同时周期性的将其所有的block块信息发送给NameNode。

MapReduce,其实是map+reduce两个阶段,Map就是将一个任务分解成多个任务,Reduce就是将分解后多任务分别处理,并将结果汇总为最终结果。在Map之前,可能还有对输入数据的Split过程以保证任务并行效率,在Map之后可能还有Shuffle过程来提高Reduce的效率以及减小数据传输的压力。

关于Hadoop架构与原理,相信大家看完以上的内容就能够有一个基础的了解和认识了。在Hadoop平台技术的学习当中,掌握Hadoop架构与原理,对于后续的Hadoop生态系统当中的各组件的学习也能起到很好的帮助作用。成都加米谷大数据,专业大数据培训机构,大数据开发2020春季班正在招生中,课程详情可联系客服了解!
热点排行
推荐文章
立即申请>>