主页 > 新闻资讯 > Apache Hadoop:关Hadoop生态圈的全面解析

Apache Hadoop:关Hadoop生态圈的全面解析

作者:张老师 浏览次数: 2020-02-14 18:34
提到Hadoop,很多人都会联想到大数据,作为大数据领域的代表性技术框架,是企业大数据平台开发的主流选择之一。关于Apache Hadoop,作为Apache旗下的的顶级开源项目之一,在大数据领域无疑占据了极高的地位。从更广义的范围来说,Hadoop不仅仅指代一个平台框架,还应该包括整个Hadoop生态圈。

Apache Hadoop

Hadoop从出现至今,已经有十来年的发展历史了,作为大数据平台框架,其具备显著的几个优势。

高可用性:Hadoop假设计算元素和存储会出现故障,存储多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。

高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。

高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。

高容错性:自动保存多份副本数据,并且能够自动将失败的任务重新分配。

正是因为具备这样的优势,Hadoop才会大数据平台框架的竞争当中获胜,虽然后来被Spark分薄了一部分市场,但是总体来说,Hadoop仍然有着不可小觑的实力。

Hadoop生态圈也在不断发展中完善,其中最核心的支持组件,包括四个部分,Hadoop Common、Hadoop YARN、Hadoop MapReduce以及Hadoop HDFS。

Hadoop Common:底层框架,支持其他模块的工具模块。

Hadoop YARN:作业调度与集群资源管理的框架。

Hadoop HDFS:高可靠、高吞吐量的分布式文件系统。

Hadoop MapReduce:分布式的离线并行计算框架。

而后,随着大数据处理需求的不断更新,Hadoop生态系统组件也在不断完善,针对大数据处理当中的大小问题,都针对性地进行解决。比如说——

Sqoop:用于在Hadoop(Hive)与传统的数据库(mysql)间进行数据的传递。

Flume:分布式日志采集、聚合和传输的系统,支持在日志系统中定制各类数据发送方,用于收集数据。

Kafka:高吞吐量的分布式发布订阅消息系统……

关于Apache Hadoop以及Hadoop生态圈的介绍,相信大家看完以上的内容也都能够有一个基本的了解了。在大数据领域,Hadoop至今仍然是代表性的技术框架之一,这也说明Hadoop强大的生命力,以及确实高效可靠地解决问题。成都加米谷大数据,大数据技术分享,大数据培训班课程,更多详情可联系客服了解!
热点排行
推荐文章
立即申请>>