主页 > 新闻资讯 > Hadoop生态圈:Hadoop大数据平台框架简介

Hadoop生态圈:Hadoop大数据平台框架简介

作者:张老师 浏览次数: 2020-02-13 17:07
到如今,Hadoop在大数据领域可以说是成名已久,十多年的发展历史,Hadoop生态圈基于实际的大数据处理需求和最新发展趋势在不断更新和优化,形成了一个基本完备的大数据平台框架系统。对于大数据处理当中遇到的以及可能遇到的各种问题,Hadoop都能给出适用的解决方案。

Hadoop的正式发布,是在2011年11月,也就是正式开始商业化,从1.0版本到如今已经是3.X版本,系统性能和稳定性都在不断提升。

Hadoop生态圈

在1.0版本当中,扩展性差、可靠性差、资源管理效率低被广泛地诟病,因此在2015年的升级2.0版本当中,在HDFS之上,增加了YARN(资源管理框架)层,为各类应用程序提供资源管理和调度,现在已经稳定延续到了3.X版本了。

Hadoop生态圈从最初的两三个组件,发展到如今有了二十几个组件,针对于大数据处理各个场景当中可能会遇到的问题,Hadoop都有针对性的解决方案。

在整个Hadoop架构中,计算框架起到承上启下的作用,一方面可以操作HDFS中的数据,另一方面可以被封装,提供Hive、Pig这样的上层组件的调用。

这里简单介绍一下其中几个比较重要的组件——

HBase:高可靠性、高性能、面向列、可伸缩的分布式数据库。

Hive:数据仓库工具,十分适合数据仓库的统计分析。可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用。

Pig:基于Hadoop的大规模数据分析工具,提供类SQL语言Pig Latin,可以将数据分析请求转换为MapReduce运算。

ZooKeeper:主要解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度。

Ambari:Hadoop管理工具,可以快捷地监控、部署、管理集群。

Sqoop:在Hadoop与传统的数据库间进行数据的传递。

Mahout:一个可扩展的机器学习和数据挖掘库。

可以这样说,Hadoop生态圈发展到现在已经比较完善了,能够解决绝大部分的企业大数据需求,也因此才能得到广泛地运用。成都加米谷大数据,专业大数据培训机构,大数据开发2020春季班,正在招生中,详情可联系客服了解!
热点排行
推荐文章
立即申请>>