主页 > 新闻资讯 > Hadoop集群架构:Hadoop大数据集群是怎么工作的

Hadoop集群架构:Hadoop大数据集群是怎么工作的

作者:张老师 浏览次数: 2020-01-13 17:47
在Hadoop框架当中,基于集群架构进行大规模数据处理,无疑是解决大规模数据处理任务的关键性支持,这也是Hadoop在现在的大数据平台开发上成为主流选择的原因之一。那么Hadoop集群架构是怎样实现数据处理这个过程的呢,下面我们来详细了解一下。

Hadoop集群架构,依靠的关键性技术,其实就是分布式技术,将大规模的数据处理任务进行分解,将分解之后的小任务分配到集群上的各台机器去处理,这样就将大规模的数据处理任务的压力也进行分解,降低了对硬件当面的硬性需求。

Hadoop集群架构

Hadoop集群架构当中,比较重要的模块有四个,Hadoop Common、Hadoop YARN、Hadoop分布式文件系统(HDFS)以及Hadoop MapReduce。

Hadoop Common是基于Hadoop框架系统所需要的Java库和实用程序,这是Hadoop框架的基础通用模式。

Hadoop YARN,是Hadoop框架当中的资源管理调度系统,实现对大数据处理任务的更优调节。

Hadoop HDFS,则是分布式文件系统,为Hadoop数据处理提供高吞吐量访问,提供大数据处理任务的存储支持。

Hadoop MapReduce,是大数据分布式计算框架,基于YARN的大型数据集进行并行处理任务。

Hadoop集群架构是如何实现工作的呢?

实现偶先,用户发出数据处理任务请求,Hadoop作业客户端将作业(JAR/可执行文件等)和配置提交给JobTracker,JobTracker负责将软件/配置分发到从站,调度任务和监视它们,向作业客户端提供状态和诊断信息。

接着,不同节点上的TaskTrackers根据MapReduce实现执行任务,并将reduce函数的输出存储到文件系统的输出文件中。于是,一次数据处理任务完成。

Hadoop集群架构在大数据处理上是有着极大的优势的,在Hadoop集群框架下,自动分配数据并在机器上工作,反过来利用CPU核心的底层并行性,实现高效地完成数据处理任务需求。

总体来说,Hadoop集群架构,是目前企业大数据平台开发的最优选择,一方面因为框架开源,所以成本低,另一方面Hadoop集群架构中的各个组件,在解决大数据处理的各种问题上都能够给出相应的解决方案。成都加米谷大数据,专业大数据培训机构,大数据技术知识分享,更多详情可联系客服了解!
热点排行
推荐文章
立即申请>>