主页 > 新闻资讯 > 成都大数据架构培训:Hadoop生态架构解析

成都大数据架构培训:Hadoop生态架构解析

作者:张老师 浏览次数: 2020-03-24 16:04
互联网的发展,方便了我们的生活,同时也以另一种方式记录着我们的生活,不断新增的大数据,就是我们生活轨迹的全面记录。要对这些大数据进行处理,以获得其中的价值线索,深深依赖着大数据技术架构。今天成都大数据架构培训课程,我们来分享Hadoop生态架构解析。

在大数据所有的技术框架当中,Hadoop可以说是生命力最强的一个了,历经十多年的发展,依然在大数据处理当中发挥着不可替代的作用,面对大规模数据处理,Hadoop的稳定性仍然值得称赞。

成都大数据架构培训

在Hadoop分布式计算平台之下,HDFS提供分布式存储解决方案,MapReduce提供分布式并行计算解决方案,二者配合来共同完成大规模数据处理的任务。在Hadoop2.0之后的版本当中,Yarn作为资源调度框架加入,使得Hadoop可应用场景再次拓展。

Yarn在Hadoop当中,充当着大管家的职责,能够细粒度的管理和调度任务,还能够支持其他的计算框架,比如后来的第二代计算框架Spark,可以在Hadoop平台当中实现协同工作,补充了Hadoop在实时计算上的不足。

发展到今天,Hadoop已经拥有非常完善和庞大的开源生态圈:HDFS提供文件存储,YARN提供资源管理,在此基础上,进行各种处理,包括mapreduce、Tez、Sprak、Storm等等,以满足不同要求的数据使用场景。

HDFS采用了主从结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成,其中NameNode作为主服务器管理文件系统的命名空间和客户端对文件的访问操作,而DataNode则负责管理存储的数据。HDFS底层数据被切割成了多个Block,而这些Block又被复制后存储在不同的DataNode上,以达到容错容灾的目的。

MapReduce是核心计算模型,它将运行于在规模集群上的复杂并行计算过程高度地抽象为两个函数过程:Map和Reduce("Map(映射)"和"Reduce(归约)")。

map函数以key/value对作为输入,产生另外一系列key/value对作为中间输出写入本地磁盘;reduce函数则以key及对应的value列表作为输入,经合并key相同的value值后,产生另外一系列key/value对作为最终输出写入HDFS。

关于成都大数据架构培训,Hadoop生态架构的讲解,以上就是简单的内容分享了。在大数据处理任务上,Hadoop仍然有着不可替代的优势,因此在大数据技术架构学习当中,仍然需要格外重视。加米谷大数据,成都大数据培训机构,Hadoop大数据开发零基础班,本月即将开班,课程大纲及学习资料可联系客服获取!
热点排行
推荐文章
立即申请>>