主页 > 新闻资讯 > 大数据技术架构详解:Hadoop大数据架构解析

大数据技术架构详解:Hadoop大数据架构解析

作者:张老师 浏览次数: 2020-01-09 11:52
作为大数据技术架构当中的核心重点,Hadoop大数据架构是大家在学习当中必须要掌握的重点,同时也可以说是难点。很多同学,在大数据技术架构学习阶段,常常觉得吃力,真的是看起来难,学习来也难,今天我们就来分享一些基于Hadoop的大数据技术架构详解。

Hadoop解决大数据问题的核心方案就是MapReduce,MapReduce既是一个分布式计算框架,也是一个编程模型,Hadoop数据处理平台的搭建,需要基于MapReduce编程模型进行开发,然后通过MapReduce计算框架,将数据处理任务分发到Hadoop集群当中去执行。

大数据技术架构详解

作为编程模型的MapReduce,简单又强大。

简单在于,MapReduce编程只包括两个过程,map+reduce,map输入一对<key,value>值,输出一对<key,value>值;然后将相同key合并,形成<key,value集合>;再将这个<key,value集合>输入reduce,经过计算输出零个或多个<key,value>对。

而强大在于,MapReduce计算性能强大。不管是关系代数运算(SQL计算),还是矩阵运算(图计算),在MapReduce编程都能实现。

作为分布式计算框架的MapReduce,对海量离线数据能够实现高效准确的处理。

第一步,启动MapReduce程序的主入口,主要指定Map和Reduce类、输入输出文件路径等,并提交作业给Hadoop集群;

第二步,根据要处理的输入数据量启动相应数量的map和reduce进程任务,并管理整个作业生命周期的任务调度和监控。

第三步,TaskTracker负责启动和管理map进程以及reduce进程,监控和管理数据处理任务整体进程。

通过以上的大致过程,MapReduce可以实现将大的数据处理任务,分配到Hadoop集群当中的电脑上进行处理,每个map计算任务要处理的数据通常都能从本地磁盘上读取到,因此在数据处理效率上得到很大的提升。

以上就是基于Hadoop架构下的大数据技术架构详解,Hadoop在面对目前的大数据处理任务上,MapReduce主要是针对离线数据的处理,针对实时在线的数据处理任务,还可以引入Spark进行补充配合。成都加米谷大数据,专业大数据培训机构,更多大数据技术知识分享可联系客服了解!
热点排行
推荐文章
立即申请>>