阿里大数据与Hadoop：Hadoop大数据应用实例

作者：张老师浏览次数： 2020-01-13 17:54

在大数据领域，Hadoop已经成为关键性的成熟技术框架，国内外的大企业搭建自己的大数据平台，都优先选择Hadoop，并且在Hadoop的基础上进行再次开发，以满足企业的个性化大数据需求。很多人都知道阿里大数据也是基于Hadoop开发的，今天我们就以阿里大数据与Hadoop为例，来详细聊一聊。

Hadoop框架的关键性技术，其实就是分布式架构，从大数据存储、计算到分析、挖掘、资源调度等，都有相应的解决方案。Hadoop最大的优点，就是实现并行计算，充分利用Hadoop搭建的集群来实现高速运算和存储。

Hadoop系统框架，通过一系列的组件来完成数据处理各个环节的任务，它不是一个全能的系统，由多个小而精的系统组成——

HDFS：分布式文件系统；

MapReduce：分布式并行计算框架，运行在Yarn之上；

HBase：分布式NoSQL列分布式数据库，适用于实时快速数据查询

Hive：数据仓库工具，处理海量结构化日志数据的统计问题；

Zookeeper：分布式协调服务，对集群服务进行管理的框架；

Pig: 大规模数据分析工具，将类SQL的数据分析请求转换为MapReduce运算；

Sqoop：在Hadoop与传统的数据库间进行数据转换和传递；

Flume：日志收集框架，将多种应用服务器上的日志，统一收集到HDFS上。

阿里大数据与Hadoop的关系其实非常紧密，是基于开源Hadoop自研的一套体系，我们从阿里大数据的组件就可以看出——

usertrack：阿里巴巴APP端日志数据采集技术

aplus.js：阿里巴巴web端日志数据采集技术

dataX：阿里巴巴离线数据库同步工具

Maxcompute：阿里巴巴大数据处理系统离线计算平台

streamcompute：阿里巴巴大数据处理系统实时计算平台

TimeTunnel：阿里巴巴实时数据传输平台

TDDL：阿里巴巴分布式数据库访问引擎

onedata：阿里巴巴数据计算层数据整合及管理体系

我们可以看出，阿里大数据与Hadoop之间的设计思路是有相同之处的，根据自身的大数据处理需求，将整个的数据处理需求，分由不同的组件系统来承担，每个系统给出对应的问题解决方案，共同支持阿里大数据整体的运行。成都加米谷大数据，大数据技术知识分享，专业大数据培训班课程，更多详情可联系客服了解！

标签：大数据应用 Hadoop 大数据实例

上一篇：大数据分布式计算框架：分布式计算技术详解
下一篇：Hadoop教程：Hadoop系统框架学习思路整理

相关推荐

大家都在看

热点排行

推荐文章