主页 > 新闻资讯 > Hadoop大数据系统架构:Hadoop系统组件解析

Hadoop大数据系统架构:Hadoop系统组件解析

作者:张老师 浏览次数: 2020-01-06 16:05
要说目前业内主流的大数据系统架构,那一定是非Hadoop莫属,国内的阿里、腾讯,国外的亚马逊、Facebook,都有自己的大数据系统,且都是在Hadoop大数据系统架构的基础上进行再次开发的。所以,不得不承认,Hadoop大数据系统架构确实是有着可取之处的。

Hadoop大数据系统,通过不同的组件来完成数据处理工作的各个模块,HDFS负责分布式存储,MapReduce负责分布式计算,YARN负责资源调度,各个组件联合在一起,共同完成数据分析处理的任务。

Hadoop大数据系统架构

Hadoop大数据系统架构组件包括——

HDFS:分布式文件系统,解决大量数据的存储问题。

MapReduce:分布式并行计算框架,运行在Yarn之上。

HBase:分布式NoSQL列分布式数据库,适用于实时快速查询的场景。

Hive:数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计。

Zookeeper:提供分布式协调服务,对集群服务进行管理,简化分布式应用协调及其管理的难度。

Pig:基于Hadoop的大规模数据分析工具,把类SQL的数据分析请求转换MapReduce运算。

Sqoop:在Hadoop数据库与传统的数据库间进行数据的转换和传递。

Mahout:主要用于机器学习和数据挖掘,能够实现很多数据挖掘的经典算法。

Oozie:一个工作流调度引擎,用来处理具有依赖关系的作业调度。

Flume:用于日志收集,将多种应用服务器上的日志,统一收集到HDFS上,以便后续分析处理。

我们可以发现,Hadoop是将数据处理的任务分成很多个小问题,每个组件负责解决一个问题,小而精,且灵活性强,可以根据实际业务来进行选择组件开发使用,从而达到整个数据处理环节的圆满解决。

关于Hadoop大数据系统架构,我们从Hadoop的各个组件来看,其实是非常清晰明了的,不同的组件各自解决一个问题,各组件联合起来,解决完整的一整个数据链条的问题,从而实现大数据的海量数据的分析和处理。成都加米谷大数据,大数据技术知识分享,专业大数据培训,课程详情可联系客服咨询。
热点排行
推荐文章
立即申请>>