主页 > 新闻资讯 > Hadoop入门基础:Hadoop系统入门简介

Hadoop入门基础:Hadoop系统入门简介

作者:张老师 浏览次数: 2020-09-02 17:27
在大数据快速发展的大背景下,掌握大数据技术的人才,也在各企业当中获得更好的发展机会。而主流的大数据技术,包括Hadoop、Spark、Storm、Flink等,对于学习者来说,需要一一去学习掌握。今天的Hadoop入门基础课程,我们来简单介绍一些Hadoop系统。

Hadoop作为最早开源的分布式系统基础架构,是行业内公认的大数据通用存储和分析平台,企业搭建大数据系统平台,也基本上是基于Hadoop来做开发,减少成本投入,也能获得持续的技术的支持。

Hadoop入门基础

Hadoop发展至今,已经形成了相对完善的生态体系,因为Hadoop又分为狭义和广义之说。狭义就是仅指Hadoop核心框架组件,包括MapReduce、HDFS和Yarn,而广义则是指整个Hadoop生态圈组件。

Hadoop重点组件包括:

HDFS:分布式文件系统

MAPREDUCE:分布式运算程序开发框架

HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具

HBASE:基于HADOOP的分布式海量数据库

ZOOKEEPER:分布式协调服务基础组件

Mahout:基于Mapreduce/Spark/Flink等分布式运算框架的机器学习算法库

Oozie:工作流调度框架

Sqoop:数据导入导出工具

Flume:日志数据采集框架

Hadoop核心组件架之HDFS

Hadoop实现分布式存储,主要依靠HDFS作为分布式文件系统,在普通硬件上提供可靠的、可伸缩的和容错的数据存储。它与MapReduce紧密合作,将存储和计算分布在大型集群中,并结合存储资源,这些存储资源可以根据请求和查询进行伸缩,同时保持低成本和预算。

Hadoop核心组件之MapReduce

最核心的计算任务,由MapReduce来完成。MapReduce既是Hadoop的分布式计算框架,也是编程模型,在Hadoop系统当中的计算任务,都被转换成MapReduce任务来执行。MapReduce的思想就是“分而治之”。Mapper负责“分”,即把复杂的任务分解为若干个“简单的任务”来处理。Reducer负责对map阶段的结果进行汇总。

Hadoop核心组件之YARN

Yarn是Hadoop的集群资源管理系统,在Hadoop 2.0之后的版本引入,作为一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。

关于Hadoop入门基础,Hadoop系统入门简介,以上就为大家做了一个简单的介绍了。Hadoop入门,建议从核心组件开始,搞懂核心的三个组件,基本上就攻克了最难的部分。成都加米谷大数据,专业大数据培训机构,Hadoop大数据开发零基础班,本月正在招生中,课程大纲及试学视频,可联系客服领取!
热点排行
推荐文章
立即申请>>