主页 > 新闻资讯 > 大数据分布式Hadoop:Hadoop数据处理核心技术

大数据分布式Hadoop:Hadoop数据处理核心技术

作者:张老师 浏览次数: 2020-01-06 17:43
众所周知,Hadoop平台的数据处理,主要是基于分布式技术,分布式存储、分布式计算、分布式协调,通过普通的计算机集群来分散处理海量数据的压力,从而实现更快速更高效地实现数据处理流程。大数据分布式Hadoop核心技术是什么呢,下面我们来详细了解一下。

Hadoop的核心是分布式技术,在Hadoop大数据平台当中,最核心的两个组件则是HDFS和MapReduce,分别解决大数据存储和大数据计算的问题,从而保障海量数据处理任务的进行。

大数据分布式Hadoop

HDFS主要是完成大数据存储任务,HDFS的核心角色分为NameNode、DataNode和Client。

NameNode,是主节点,存储文件的元数据信息,记录文件是如何分割成数据块的,以及这些数据块被存储到哪些节点上,可以对内存和I/O进行集中管理。

DataNode是Slave节点,负责把HDFS数据块读写到本地文件系统,是真正存储文件的节点。

Client:是用户与HDFS的桥梁,主要用于切分用户提交的文件,与NameNode交互,获得文件位置信息。然后直接与DataNode交互,读取和写入数据。

MapReduce主要完成大数据计算任务,主要角色分为JobTracker和TaskTracker。

JobTracker,类似于NameNode,负责控制MapReduce应用程序的系统,在用户计算作业的应用程序提交之后,JobTracker决定有哪些文件参与处理。

TaskTracker,则负责各自节点上由jobtracker分配的task的,每个TaskTracker将状态和完成信息报告给JobTracker。

由于在JobTracker和TaskTracker的运行过程中,负载较重,导致系统不稳定性增强,因此在后来的Hadoop2.0当中,又加入了YARN资源管理框架。

YARN负责计算机集群的调度和管理,很多程序都可以运行在yarn之上,由yarn统一进行调度,整体提升了大数据分布式Hadoop系统的协调能力。HDFS、MapReduce、Yarn三者共同联合起来,能够很好地完成大数据处理任务。

以上就是关于大数据分布式Hadoop核心技术的一些分享了,当然,涉及到Hadoop系统当中的框架组件,以上只是一部分,但是作为Hadoop的技术核心,却是最重要的一部分。成都加米谷大数据,大数据技术分享,专业大数据培训,了解课程详情可咨询客服了解!
热点排行
推荐文章
立即申请>>