主页 > 新闻资讯 > 成都Hadoop大数据培训:Hadoop基本原理与架构

成都Hadoop大数据培训:Hadoop基本原理与架构

作者:张老师 浏览次数: 2020-06-11 17:24
Hadoop作为颇有历史的一个大数据框架,直到今天,依然是在行业当中有着不可替代的优势所在。Hadoop作为大数据基础架构,学习大数据必学Hadoop,这一点至今仍然得到行业认可。今天的成都Hadoop大数据培训分享,我们来聊聊Hadoop基本原理与架构。

Hadoop作为开源大数据技术框架,能够帮助企业在相对低廉的成本投入上,搭建起自身的大数据系统平台。Hadoop作为基础架构,主要负责海量数据的存储以及离线计算。

成都Hadoop大数据培训

Hadoop核心基础架构:

Hadoop分布式处理框架,HDFS是底层核心,负责大数据存储;MapReduce则是计算引擎,负责离线计算。

HDFS

HDFS(Hadoop File System),是Hadoop的分布式文件存储系统。

将大文件分解为多个Block,每个Block保存多个副本。提供容错机制,副本丢失或者宕机时自动恢复。默认每个Block保存3个副本,64M为1个Block。将Block按照key-value映射到内存当中。

MapReduce

MapReduce是一个编程模型,封装了并行计算、容错、数据分布、负载均衡等细节问题。MapReduce实现最开始是映射map,将操作映射到集合中的每个文档,然后按照产生的键进行分组,并将产生的键值组成列表放到对应的键中。化简(reduce)则是把列表中的值化简成一个单值,这个值被返回,然后再次进行键分组,直到每个键的列表只有一个值为止。

HIVE

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,这套SQL简称HQL。

Hive使不熟悉Mapreduce的用户很方便的利用SQL语言查询、汇总、分析数据。而Mapreduce开发人员可以把己写的Mapper和Reducer作为插件来支持Hive做更复杂的数据分析。

关于成都Hadoop大数据培训,Hadoop基本原理与架构,以上就为大家做了一个基本的入门介绍了。Hadoop仍然是大数据培训当中的重点框架技术之一,所以学习当中也要重视起来。加米谷大数据,成都大数据培训机构,Hadoop大数据开发班,本月正在招生中,课程大纲及试学视频可联系客服获取!
热点排行
推荐文章
立即申请>>