主页 > 新闻资讯 > 阿里大数据与Hadoop:Hadoop大数据应用实例

阿里大数据与Hadoop:Hadoop大数据应用实例

作者:张老师 浏览次数: 2020-01-13 17:54
在大数据领域,Hadoop已经成为关键性的成熟技术框架,国内外的大企业搭建自己的大数据平台,都优先选择Hadoop,并且在Hadoop的基础上进行再次开发,以满足企业的个性化大数据需求。很多人都知道阿里大数据也是基于Hadoop开发的,今天我们就以阿里大数据与Hadoop为例,来详细聊一聊。

Hadoop框架的关键性技术,其实就是分布式架构,从大数据存储、计算到分析、挖掘、资源调度等,都有相应的解决方案。Hadoop最大的优点,就是实现并行计算,充分利用Hadoop搭建的集群来实现高速运算和存储。

阿里大数据与Hadoop

Hadoop系统框架,通过一系列的组件来完成数据处理各个环节的任务,它不是一个全能的系统,由多个小而精的系统组成——

HDFS:分布式文件系统;

MapReduce:分布式并行计算框架,运行在Yarn之上;

HBase:分布式NoSQL列分布式数据库,适用于实时快速数据查询

Hive:数据仓库工具,处理海量结构化日志数据的统计问题;

Zookeeper:分布式协调服务,对集群服务进行管理的框架;

Pig: 大规模数据分析工具,将类SQL的数据分析请求转换为MapReduce运算;

Sqoop:在Hadoop与传统的数据库间进行数据转换和传递;

Flume:日志收集框架,将多种应用服务器上的日志,统一收集到HDFS上。

阿里大数据与Hadoop的关系其实非常紧密,是基于开源Hadoop自研的一套体系,我们从阿里大数据的组件就可以看出——

usertrack:阿里巴巴APP端日志数据采集技术

aplus.js:阿里巴巴web端日志数据采集技术

dataX:阿里巴巴离线数据库同步工具

Maxcompute:阿里巴巴大数据处理系统离线计算平台

streamcompute:阿里巴巴大数据处理系统实时计算平台

TimeTunnel:阿里巴巴实时数据传输平台

TDDL:阿里巴巴分布式数据库访问引擎

onedata:阿里巴巴数据计算层数据整合及管理体系

我们可以看出,阿里大数据与Hadoop之间的设计思路是有相同之处的,根据自身的大数据处理需求,将整个的数据处理需求,分由不同的组件系统来承担,每个系统给出对应的问题解决方案,共同支持阿里大数据整体的运行。成都加米谷大数据,大数据技术知识分享,专业大数据培训班课程,更多详情可联系客服了解!
热点排行
推荐文章
立即申请>>