主页 > 新闻资讯 > 大数据Hadoop培训:Hadoop核心架构及生态圈

大数据Hadoop培训:Hadoop核心架构及生态圈

作者:张老师 浏览次数: 2020-04-10 15:28
在大数据培训课程当中,Hadoop无疑是必学的一部分,也是重点的一部分,因此很多人在学习大数据的时候,也常常对Hadoop这部分的知识点,觉得难度很大,轻易啃不下来。今天的大数据Hadoop培训分享,我们来讲讲Hadoop核心架构及生态圈。

Hadoop正在开始在大数据领域发力,是从2008年开始的,作为Apache的开源项目推出,而后Yahoo宣布建成了一个拥有1万个内核的Hadoop集群,Hadoop从此打响了名号,随后在大数据领域得到快速广泛的应用。

大数据Hadoop培训

Hadoop的核心,其实就是HDFS和MapReduce,前者负责分布式存储,后者负责分布式计算。

整个HDFS有三个重要角色:NameNode(名称节点)、DataNode(数据节点)和Client(客户机)。

HDFS是典型的主从架构,用TCP/IP通信,NameNode是Master节点(主节点),可以看作是分布式文件系统中的管理者;DataNode是Slave节点(从节点),是文件存储的基本单元;Client负责切分文件,访问HDFS,与NameNode交互,获得文件位置信息,与DataNode交互,读取和写入数据。 

MapReduce,是一种编程模型,核心步骤主要分两部分:Map(映射)和Reduce(归约)。

当你向MapReduce框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map任务,然后分配到不同的节点上去执行,每一个Map任务处理输入数据中的一部分,当Map任务完成后,它会生成一些中间文件,这些中间文件将会作为Reduce任务的输入数据。Reduce任务的主要目标就是把前面若干个Map的输出汇总到一起并输出。

在后来的Hadoop2.0版本中,在HDFS之上,增加了YARN(资源管理框架)层。它是一个资源管理模块,为各类应用程序提供资源管理和调度。

Hadoop生态当中几个比较重要的组件——

HBase:高可靠性、高性能、面向列、可伸缩的分布式数据库。

Hive:数据仓库工具,通过类SQL语句快速实现简单的MapReduce统计。

Pig:提供SQL-LIKE语言叫Pig Latin,把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。

ZooKeeper:解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度。

Sqoop:用于在Hadoop与传统的数据库间进行数据的传递。

Mahout:可扩展的机器学习和数据挖掘库。

关于大数据Hadoop培训,Hadoop核心架构及生态圈,相信看完以上的内容,大家对相关的知识也有了更深入的了解了。学习大数据,Hadoop必学,并且还要学得好,才能真正提升技术实力,获得竞争优势。成都加米谷大数据,专业大数据培训机构,Hadoop大数据培训班,本月正在招生中,课程大纲及试学视频可联系客服领取!
热点排行
推荐文章
立即申请>>