Apache Hadoop：关Hadoop生态圈的全面解析

作者：张老师浏览次数： 2020-02-14 18:34

提到Hadoop，很多人都会联想到大数据，作为大数据领域的代表性技术框架，是企业大数据平台开发的主流选择之一。关于Apache Hadoop，作为Apache旗下的的顶级开源项目之一，在大数据领域无疑占据了极高的地位。从更广义的范围来说，Hadoop不仅仅指代一个平台框架，还应该包括整个Hadoop生态圈。

Hadoop从出现至今，已经有十来年的发展历史了，作为大数据平台框架，其具备显著的几个优势。

高可用性：Hadoop假设计算元素和存储会出现故障，存储多个工作数据副本，在出现故障时可以对失败的节点重新分布处理。

高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。

高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。

高容错性：自动保存多份副本数据，并且能够自动将失败的任务重新分配。

正是因为具备这样的优势，Hadoop才会大数据平台框架的竞争当中获胜，虽然后来被Spark分薄了一部分市场，但是总体来说，Hadoop仍然有着不可小觑的实力。

Hadoop生态圈也在不断发展中完善，其中最核心的支持组件，包括四个部分，Hadoop Common、Hadoop YARN、Hadoop MapReduce以及Hadoop HDFS。

Hadoop Common：底层框架，支持其他模块的工具模块。

Hadoop YARN：作业调度与集群资源管理的框架。

Hadoop HDFS：高可靠、高吞吐量的分布式文件系统。

Hadoop MapReduce：分布式的离线并行计算框架。

而后，随着大数据处理需求的不断更新，Hadoop生态系统组件也在不断完善，针对大数据处理当中的大小问题，都针对性地进行解决。比如说——

Sqoop：用于在Hadoop(Hive)与传统的数据库(mysql)间进行数据的传递。

Flume：分布式日志采集、聚合和传输的系统，支持在日志系统中定制各类数据发送方，用于收集数据。

Kafka：高吞吐量的分布式发布订阅消息系统……

关于Apache Hadoop以及Hadoop生态圈的介绍，相信大家看完以上的内容也都能够有一个基本的了解了。在大数据领域，Hadoop至今仍然是代表性的技术框架之一，这也说明Hadoop强大的生命力，以及确实高效可靠地解决问题。成都加米谷大数据，大数据技术分享，大数据培训班课程，更多详情可联系客服了解！

标签： Hadoop 大数据平台 Hadoop大数据

上一篇：Spark Hadoop原理：Spark和Hadoop工作流程
下一篇：自学Spark内存：Spark框架内存机制

相关推荐

大家都在看

热点排行

推荐文章