Hadoop处理大数据流程：Hadoop架构下的数据处理流程

作者：张老师浏览次数： 2020-01-08 17:39

Hadoop作为主流运用的大数据框架平台，在完成海量数据的处理任务上，兼顾高效性和准确性，这也是Hadoop在现在得到广泛重用的原因。而在Hadoop技术框架的学习当中，对于Hadoop处理大数据流程的相关知识，也需要做到有清楚的认识和了解。今天，我们就来问大家分享一下Hadoop架构下的数据处理流程。

Hadoop处理大数据，主要是基于Hadoop的两大核心组件，HDFS和MapReduce，这两者通过分布式存储和分布式计算，实现对大数据的存储和运算，解决了大数据处理流程当中最重要的问题。

那么这两大核心组件是如何实现大数据处理的呢？来看HDFS。

HDFS采取的主从结构，其中涉及到三个非常重要的概念：NameNode（名称节点）、DataNode（数据节点）和Client（客户机）。

NameNode是主节点，负责管理文件系统的命名空间、集群配置信息和存储块的复制等，会将文件系统的文件信息、文件对应的文件块信息，以及每个文件块所在的位置信息进行存储；

DataNode是从节点，是文件存储的基本单元，它将Block存储在本地文件系统中，同时周期性地将所有存在的Block信息发送给NameNode；

Client，则负责切分文件；访问HDFS；与NameNode交互，获得文件位置信息；与DataNode交互，读取和写入数据。

这里再补充一个Block（块）的概念，这是HDFS当中被切分成的最小的块，也是HDFS中的基本读写单元。

Hadoop处理大数据流程，其实也就是通过HDFS进行文件的写入和读取——

文件写入：

向Client（客户机）发出请求，需要写入数据；

Client制定计划，将需要写入的数据进行切割分块，每个块保存三份；

Client将大文件切分成块，一块一块地一次写入存储；

第一个块完成存储后，向NameNode反馈已完成；

直到所有的块都完成后，关闭文件。NameNode会将数据持久化到磁盘上。

文件读取：

向Client提出读取数据请求；

Client向NameNode请求这个文件的位置信息；

NameNode将这个文件的块列表以存储位置信息给到Client；

Client从距离最近的数据节点下载所需的块。

关于Hadoop处理大数据流程，以上只是HDFS上进行简化的描述，事实上的数据处理过程，要比描述得要复杂得多，对于这个数据处理流程要做到清楚的认识，下一步才能更好地完成对整个Hadoop框架的学习和掌握。成都加米谷大数据，大数据技术知识分享，提供专业大数据培训班，课程详情可联系客服了解！

标签： Hadoop 大数据处理大数据架构

上一篇：Hadoop生成数据：Hadoop数据写入与读取流程分解
下一篇：大数据处理：通用的大数据处理流程解析

相关推荐

大家都在看

热点排行

推荐文章