主页 > 新闻资讯 > Hadoop平台简介:Hadoop大数据平台核心组件介绍

Hadoop平台简介:Hadoop大数据平台核心组件介绍

作者:张老师 浏览次数: 2020-02-13 17:08
作为Apache旗下的顶级开源项目之一,Hadoop从早期的小众尴尬状态,逐步成为大数据领域的关键性技术,这也说明Hadoop平台的大数据处理性能得到了验证。现在一提到大数据,Hadoop已经成为技术代名词,今天我们基于Hadoop平台简介,来对其核心组件做一个简单的介绍。

Hadoop生态圈有二十几个组件,每个组件都致力于解决一定的大数据问题,但是其核心关键的组件,始终是YARN,HDFS和Mapreduce这三者。

Hadoop平台简介

先来说说HDFS,这是Hadoop的分布式文件系统,负责将数据源转换到集群上进行分布式存储。可以说这样说,HDFS是Hadoop体系中数据存储管理的基础,有了这个基础,才能进行下一步的数据计算。

HDFS,基于廉价的PC硬件集群进行数据存储,成本低廉;冗余式存储,使得系统具有高度容错性,HDFS简化了文件的一致性模型,通过流式数据访问,支持一次写入多次读取,大大提高了数据高吞吐量。

而涉及到下一环节的数据计算,则主要是由MapReduce来负责。MapReduce是Hadoop的分布式计算框架,也是编程模型,所以Hadoop上的数据处理请求都需要转换成MapReduce任务执行。

Mapreduce将计算抽象成map和reduce两部分,其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。

而Yarn组件,作为分布式资源管理器,是在Hadoop2.0之后的版本才有的,基于早期Hadoop版本当中遇到的资源管理效率低而设计的。

Yarn是通用的运行时框架,用户可以编写自己的计算框架,在该运行环境中运行。用于自己编写的框架作为客户端的一个lib,在运用提交作业时打包即可。该框架为提供了以下几个组件:

-资源管理:包括应用程序管理和机器资源管理

-资源双层调度

-容错性:各个组件均有考虑容错性

-扩展性:可扩展到上万个节点

以上就是关于Hadoop平台简介的介绍了。Hadoop平台作为现在主流运用的大数据系统平台框架,是大数据技术开发人员必须掌握的关键性技术,学习阶段要引起重视。成都加米谷大数据,大数据技术分享,大数据培训班课程,更多详情可联系客服了解!

热点排行
推荐文章
立即申请>>