主页 > 新闻资讯 > Hadoop处理大数据流程:Hadoop架构下的数据处理流程

Hadoop处理大数据流程:Hadoop架构下的数据处理流程

作者:张老师 浏览次数: 2020-01-08 17:39
Hadoop作为主流运用的大数据框架平台,在完成海量数据的处理任务上,兼顾高效性和准确性,这也是Hadoop在现在得到广泛重用的原因。而在Hadoop技术框架的学习当中,对于Hadoop处理大数据流程的相关知识,也需要做到有清楚的认识和了解。今天,我们就来问大家分享一下Hadoop架构下的数据处理流程。

Hadoop处理大数据,主要是基于Hadoop的两大核心组件,HDFS和MapReduce,这两者通过分布式存储和分布式计算,实现对大数据的存储和运算,解决了大数据处理流程当中最重要的问题。

Hadoop处理大数据流程

那么这两大核心组件是如何实现大数据处理的呢?来看HDFS。

HDFS采取的主从结构,其中涉及到三个非常重要的概念:NameNode(名称节点)、DataNode(数据节点)和Client(客户机)。

NameNode是主节点,负责管理文件系统的命名空间、集群配置信息和存储块的复制等,会将文件系统的文件信息、文件对应的文件块信息,以及每个文件块所在的位置信息进行存储;

DataNode是从节点,是文件存储的基本单元,它将Block存储在本地文件系统中,同时周期性地将所有存在的Block信息发送给NameNode;

Client,则负责切分文件;访问HDFS;与NameNode交互,获得文件位置信息;与DataNode交互,读取和写入数据。

这里再补充一个Block(块)的概念,这是HDFS当中被切分成的最小的块,也是HDFS中的基本读写单元。

Hadoop处理大数据流程,其实也就是通过HDFS进行文件的写入和读取——

文件写入:

向Client(客户机)发出请求,需要写入数据;

Client制定计划,将需要写入的数据进行切割分块,每个块保存三份;

Client将大文件切分成块,一块一块地一次写入存储;

第一个块完成存储后,向NameNode反馈已完成;

直到所有的块都完成后,关闭文件。NameNode会将数据持久化到磁盘上。

文件读取:

向Client提出读取数据请求;

Client向NameNode请求这个文件的位置信息;

NameNode将这个文件的块列表以存储位置信息给到Client;

Client从距离最近的数据节点下载所需的块。

关于Hadoop处理大数据流程,以上只是HDFS上进行简化的描述,事实上的数据处理过程,要比描述得要复杂得多,对于这个数据处理流程要做到清楚的认识,下一步才能更好地完成对整个Hadoop框架的学习和掌握。成都加米谷大数据,大数据技术知识分享,提供专业大数据培训班,课程详情可联系客服了解!
热点排行
推荐文章
立即申请>>