Hadoop入门基础：Hadoop系统入门简介

作者：张老师浏览次数： 2020-09-02 17:27

在大数据快速发展的大背景下，掌握大数据技术的人才，也在各企业当中获得更好的发展机会。而主流的大数据技术，包括Hadoop、Spark、Storm、Flink等，对于学习者来说，需要一一去学习掌握。今天的Hadoop入门基础课程，我们来简单介绍一些Hadoop系统。

Hadoop作为最早开源的分布式系统基础架构，是行业内公认的大数据通用存储和分析平台，企业搭建大数据系统平台，也基本上是基于Hadoop来做开发，减少成本投入，也能获得持续的技术的支持。

Hadoop发展至今，已经形成了相对完善的生态体系，因为Hadoop又分为狭义和广义之说。狭义就是仅指Hadoop核心框架组件，包括MapReduce、HDFS和Yarn，而广义则是指整个Hadoop生态圈组件。

Hadoop重点组件包括：

HDFS：分布式文件系统

MAPREDUCE：分布式运算程序开发框架

HIVE：基于大数据技术（文件系统+运算框架）的SQL数据仓库工具

HBASE：基于HADOOP的分布式海量数据库

ZOOKEEPER：分布式协调服务基础组件

Mahout：基于Mapreduce/Spark/Flink等分布式运算框架的机器学习算法库

Oozie：工作流调度框架

Sqoop：数据导入导出工具

Flume：日志数据采集框架

Hadoop核心组件架之HDFS

Hadoop实现分布式存储，主要依靠HDFS作为分布式文件系统，在普通硬件上提供可靠的、可伸缩的和容错的数据存储。它与MapReduce紧密合作，将存储和计算分布在大型集群中，并结合存储资源，这些存储资源可以根据请求和查询进行伸缩，同时保持低成本和预算。

Hadoop核心组件之MapReduce

最核心的计算任务，由MapReduce来完成。MapReduce既是Hadoop的分布式计算框架，也是编程模型，在Hadoop系统当中的计算任务，都被转换成MapReduce任务来执行。MapReduce的思想就是“分而治之”。Mapper负责“分”，即把复杂的任务分解为若干个“简单的任务”来处理。Reducer负责对map阶段的结果进行汇总。

Hadoop核心组件之YARN

Yarn是Hadoop的集群资源管理系统，在Hadoop 2.0之后的版本引入，作为一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。

关于Hadoop入门基础，Hadoop系统入门简介，以上就为大家做了一个简单的介绍了。Hadoop入门，建议从核心组件开始，搞懂核心的三个组件，基本上就攻克了最难的部分。成都加米谷大数据，专业大数据培训机构，Hadoop大数据开发零基础班，本月正在招生中，课程大纲及试学视频，可联系客服领取！

标签： Hadoop 大数据入门 Hadoop大数据

上一篇：现在去培训班学IT真的好吗？选择什么方向
下一篇：IT入门看什么书？零基础转行必备

相关推荐

大家都在看

热点排行

推荐文章