主页 > 新闻资讯 > Hadoop架构解读:Hadoop架构当中各组件的作用

Hadoop架构解读:Hadoop架构当中各组件的作用

作者:张老师 浏览次数: 2020-01-13 17:50
实现大数据处理的系统框架,Hadoop无疑是首屈一指的,在目前的大数据平台框架当中,Hadoop是主流的选择。那么Hadoop为什么会成为主流的大数据处理框架选择呢,这与Hadoop架构有很大的关系。今天我们就来聊聊Hadoop架构解读,看看Hadoop架构当中各组件的作用。

Hadoop架构的设计思想,就是将大规模数据处理的任务所面临的各个问题,拆解开来,通过各个组件去分别解决,所以Hadoop从最初的1.0版本,到现在的3.X版本,不断的更新优化,已经有了二十余个组件,共同来完成大规模数据处理的任务。

Hadoop架构解读

首先,数据存储阶段,主要依靠分布式文件系统HDFS,将大规模数据存储任务,切割成一定大小的小任务,然后分布到集群上的各台机器去实现。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能。

接着,数据处理任务管理和调度,通过Yarn来实现。Yarn可以说是Hadoop通用资源管理系统,将Hadoop架构集群在利用率、资源统一管理和数据共享等方面的性能进行了进一步的提升。

再接着,数据计算,主要依靠分布式计算框架MapReduce来实现。MapReduce将运行于大规模集群上的并行计算过程高度地抽象到了两个函数一一Map和Reduce上,大大提升了大规模离线数据处理的效率。

而针对实时在线的数据处理,Hadoop又引入了Spark,基于Hadoop自身的HDFS分布式文件系统,可以实现对大规模实时数据的并行处理,进一步补足了Hadoop架构在实时在线数据处理上的不足。

后来,Hadoop又提出了针对Hadoop数据处理应用程序的新分布式执行框架Tez,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。但Tez并不针对普通用户,更多是在技术开发层面。

关于Hadoop架构解读,以上就是一个简单的介绍了。我们都知道,Hadoop架构在现阶段的数据处理上有很大的优势,但是大数据越往前发展,也会对数据处理提出新的要求,对于技术开发人员而言,需要持续性地学习。成都加米谷大数据,专业大数据培训班课程,大数据技术知识分享,更多详情可联系客服了解!
热点排行
推荐文章
立即申请>>