Hadoop比喻：如何更轻松地理解Hadoop大数据

作者：张老师浏览次数： 2020-01-13 15:49

针对于海量大数据的处理，目前来说企业主流运用的还是Hadoop框架来进行平台搭建，实现企业大数据处理的各种功能需求。大数据本身是个比较宽泛的概念，刚开始接触理解起来还是有一定的难度，今天我们就通过Hadoop比喻来更轻松地理解Hadoop大数据。

企业大数据平台的需求，在Hadoop框架下，其实都能找到相应的解决方案，基本上整个Hadoop生态圈的组件都是基于大数据处理需求而涉及到的。简单来说，可以将Hadoop比喻为一个厨房所需要的各种工具，锅碗瓢盆，各有各的用处，共同完成厨房当中的各种食材处理以及烹饪需求。

首先，在做饭前，我们需要有食材，食材要存储得当，不会发生腐烂变质等。对应到Hadoop当中，我们要实现对大数据的处理，首先需要存得下大数据，也就是为数据处理准备好基础物料，这就是HDFS主要负责的任务。

HDFS分布式文件系统本质上来说，就是为了使得大规模的数据能够横跨成百上千台机器，这也就是计算机集群，将大规模数据存储任务分派到更多的机器上去存储，也就实现了整体数据存储量和规模的提升。

存得下数据之后，下一步需要对这些数据进行处理，这也就是准备烹饪菜品的过程。这时候Hadoop引入了MapReduce，通过MapReduce来实现对集群上的数据进行计算，只有Map和Reduce两个计算过程（中间用Shuffle串联），大大提升了海量数据处理的效率问题。

MapReduce作为数据处理框架，在数据计算处理上很强大，但是写MapReduce的程序又很麻烦，于是又出现了Pig和Hive，用来实现更好的操作MapReduce程序。

Pig以接近脚本方式去描述MapReduce，Hive则用的是SQL，它们把脚本和SQL语言翻译成MapReduce程序，丢给计算引擎去计算，这样就大大减少了MapReduce程序编写的繁琐任务，可以更快更直观地实现数据计算分析。

基于这样一个接地气的Hadoop比喻，相信大家在Hadoop大数据的理解上也就能够更清晰明了了。Hadoop生态架构当中，基于数据处理的各个环节都能给出相应的解决方案，这也是在大数据学习阶段，大家需要牢牢掌握的。成都加米谷大数据，大数据技术知识分享，大数据培训班课程，更多详情可联系客服了解！

标签： Hadoop 大数据架构大数据平台

上一篇：电力数据分析：电力大数据分析关键性技术
下一篇：Hadoop集群架构：Hadoop大数据集群是怎么工作的

相关推荐

大家都在看

热点排行

推荐文章