主页 > 新闻资讯 > Hadoop大数据线上培训:Hadoop分布式架构详解

Hadoop大数据线上培训:Hadoop分布式架构详解

作者:张老师 浏览次数: 2020-06-11 18:13
作为最早开源的大数据框架,Hadoop经历了相当长的一段黄金发展时期,在大数据的发展当中,Hadoop也在随着大趋势不断优化调整,但是分布式架构始终是不变的主旨。今天的Hadoop大数据线上培训分享,我们来对Hadoop分布式架构做一个具体的讲解。

Hadoop是Apache软件基金会下的一个开源分布式计算平台,在业内应用非常广泛,可以说是大数据的代名词,也是分布式计算架构的鼻祖。几乎所有主流厂商都围绕Hadoop进行开发和提供服务,如谷歌、百度、思科、华为、阿里巴巴、微软都支持Hadoop。

Hadoop大数据线上培训

Hadoop的原理,简单来说就是将一个大型的任务切割成多个部分给多台计算机,让每台计算机处理其中的一部分。这种运行在分布式计算存储的架构所带来的好处是明显的。

在硬盘存储层面,Hadoop的数据处理工作借助HDFS,将架构下每一台计算机中的硬盘资源汇聚起来,无论是存储计算还是调用,都可以视为一块硬盘使用,就像计算机中的C盘、D盘。

在资源管理层面,Hadoop使用集群管理和调度软件YARN,相当于计算机的Windows操作系统,进行资源的调度管理。

在计算处理层面,Hadoop利用MapReduce计算框架进行计算编程,将复杂的、运行在大规模集群上的并行计算过程高度抽象成两个函数——Map和Reduce。

经过多年的发展,Hadoop生态系统不断完善和成熟,除了核心的HDFS、YARN和MapReduce之外,还包括ZooKeeper、HBase、Hive、Pig、Mathout、Flume、Sqoop、Ambari等功能组件。

这种架构大幅提升了计算存储性能,降低计算平台的硬件投入成本。然而,任何事物都不是完美的。

Hadoop的缺点在于,由于计算过程放在硬盘上,受制于硬件条件限制,数据的吞吐和处理速度明显不如使用内存快,尤其是在使用Hadoop进行迭代计算时,非常耗资源,且在开发过程中需要编写不少相对底层的代码,不够高效。

关于Hadoop大数据线上培训,Hadoop分布式架构,以上就为大家做了一个简单的介绍了。Hadoop在大数据当中的地位仍然很重要,掌握Hadoop技术,仍然是入行的基本要求之一。加米谷大数据,成都大数据培训机构,Hadoop大数据培训班,本月正在招生中,课程大纲及试学视频可联系客服获取!
热点排行
推荐文章
立即申请>>