大数据分布式Hadoop：Hadoop数据处理核心技术

作者：张老师浏览次数： 2020-01-06 17:43

众所周知，Hadoop平台的数据处理，主要是基于分布式技术，分布式存储、分布式计算、分布式协调，通过普通的计算机集群来分散处理海量数据的压力，从而实现更快速更高效地实现数据处理流程。大数据分布式Hadoop核心技术是什么呢，下面我们来详细了解一下。

Hadoop的核心是分布式技术，在Hadoop大数据平台当中，最核心的两个组件则是HDFS和MapReduce，分别解决大数据存储和大数据计算的问题，从而保障海量数据处理任务的进行。

HDFS主要是完成大数据存储任务，HDFS的核心角色分为NameNode、DataNode和Client。

NameNode，是主节点，存储文件的元数据信息，记录文件是如何分割成数据块的，以及这些数据块被存储到哪些节点上，可以对内存和I/O进行集中管理。

DataNode是Slave节点，负责把HDFS数据块读写到本地文件系统，是真正存储文件的节点。

Client：是用户与HDFS的桥梁，主要用于切分用户提交的文件，与NameNode交互，获得文件位置信息。然后直接与DataNode交互，读取和写入数据。

MapReduce主要完成大数据计算任务，主要角色分为JobTracker和TaskTracker。

JobTracker，类似于NameNode，负责控制MapReduce应用程序的系统，在用户计算作业的应用程序提交之后，JobTracker决定有哪些文件参与处理。

TaskTracker，则负责各自节点上由jobtracker分配的task的，每个TaskTracker将状态和完成信息报告给JobTracker。

由于在JobTracker和TaskTracker的运行过程中，负载较重，导致系统不稳定性增强，因此在后来的Hadoop2.0当中，又加入了YARN资源管理框架。

YARN负责计算机集群的调度和管理，很多程序都可以运行在yarn之上，由yarn统一进行调度，整体提升了大数据分布式Hadoop系统的协调能力。HDFS、MapReduce、Yarn三者共同联合起来，能够很好地完成大数据处理任务。

以上就是关于大数据分布式Hadoop核心技术的一些分享了，当然，涉及到Hadoop系统当中的框架组件，以上只是一部分，但是作为Hadoop的技术核心，却是最重要的一部分。成都加米谷大数据，大数据技术分享，专业大数据培训，了解课程详情可咨询客服了解！

标签：大数据技术 Hadoop.大数据处理

上一篇：Hadoop大数据系统架构：Hadoop系统组件解析
下一篇：Hadoop大数据测试：Hadoop大数据平台测试流程

相关推荐

大家都在看

热点排行

推荐文章