主页 > 新闻资讯 > Hadoop指南:Hadoop核心框架解析

Hadoop指南:Hadoop核心框架解析

作者:张老师 浏览次数: 2020-02-04 18:20
Hadoop作为如今的大数据主流运用框架,也是大数据从业者们需要掌握的必备技能要点。而随着Hadoop和大数据的发展,Hadoop生态系统已经形成了相对完备的一个体系,今天我们就从Hadoop核心框架讲起,给大家分享Hadoop指南学习路线。

Hadoop生态系统,包括HDFS、MapReduce,HBase,Zookeeper,Pig、Hive等一系列组件工具,并且随着数据处理当中遇到新的问题,还在不断更新优化,比如Mdhout、Ambari等,就是根据最新的技术趋势而设计开发的。

Hadoop指南

Hadoop的核心思想,其实就是分布式架构,Hadoop系统框架当中,从数据存储到计算都是带有分布式特征的。大数据处理的关键步骤,包括存储和计算,存储通过HDFS分布式文件系统来实现,计算通过MapReduce来实现。

MapReduce,既是Hadoop的分布式计算框架,也是一个编程模型。MapReduce的灵感来源于函数式编程,用户可将他们的计算表达为Map和Reduce函数,将数据作为键值对来处理。

MapReduce在进行分布式计算时,也分为map和reduce两个阶段,以一系列Map和Reduce任务的形式运行MapReduce作业。Map任务在输入数据的子集上调用Map函数。在完成这些调用后,Reduce任务开始在map函数所生成的中间数据上调用Reduce任务,生成最终的输出。Map和Reduce任务彼此单独运行,支持并行和容错的计算。

而随着数据处理的进一步发展,Hadoop又加入了Yarn组件,对于整个Hadoop系统当中的大小任务进行调度和协调,并行化、调度、资源管理、机器间通信、软件和硬件故障处理等等,更加提高了系统的高效性和可靠性。

Hadoop系统框架当中,处理数百(或者甚至数千)个机器上的数TB数据,也能实现高效处理。并且随着数据处理规模的进一步增加,还能通过集群硬件的扩展,来提供数据存储和计算的容量,具备高扩展性。

以上就是今天为大家分享的Hadoop指南核心框架解析,在目前的大数据系统平台上,Hadoop系统越来越趋于成熟和稳定,提供稳定的大数据处理解决方案。成都加米谷大数据,大数据技术分享,大数据课程培训,更多详情可联系客服了解!
热点排行
推荐文章
立即申请>>