主页 > 新闻资讯 > Hadoop大数据分析,需要掌握哪些技术

Hadoop大数据分析,需要掌握哪些技术

作者:张老师 浏览次数: 2020-08-18 17:32
在诸多大数据技术框架当中,Hadoop的经典地位,直至今天也是得到肯定的。企业在选择开源大数据系统平台框架的时候,也倾向于选择Hadoop作为基础框架。今天我们就来聊聊,Hadoop大数据分析,需要掌握哪些技术?

Hadoop最早的版本是在2003年发布,作为大数据分布式系统基础架构,解决了企业基于大数据系统平台开发所需要解决的基本技术支持。而基于Hadoop搭建起来的系统平台,要实现大规模数据处理,其中还涉及到生态圈的诸多框架组件。

Hadoop大数据分析

1、资源统一管理/调度系统

在公司和机构中,服务器往往会因为业务逻辑被拆分为多个集群,基于数据密集型的处理框架也是不断涌现,比如支持离线处理的MapReduce、支持在线处理的Storm及Impala、支持迭代计算的Spark及流处理框架S4,它们诞生于不同的实验室,并各有所长。

为了减少管理成本,提升资源的利用率,就有了资源统一管理/调度系统。

Apache Mesos,提供高效、跨分布式应用程序和框架的资源隔离和共享,支持Hadoop、MPI、Hypertable、Spark等。

Hadoop YARN,又被称为MapReduce2.0,借鉴Mesos,后来成为Hadoop生态的核心组件之一。

2、Hadoop上的实时解决方案

在互联网公司中基于业务逻辑需求,企业往往会采用多种计算框架,比如从事搜索业务的公司:网页索引建立用MapReduce,自然语言处理用Spark等。

Cloudera Impala,开源的MassivelyParallelProcessing(MPP)查询引擎。与Hive相同的元数据、SQL语法、ODBC驱动程序和用户接口(HueBeeswax),可以直接在HDFS或HBase上提供快速、交互式SQL查询。

Apache Spark,开源的数据分析集群计算框架,采用基于内存的分布式数据集,优化了迭代式的工作负载以及交互式查询。

Storm,分布式的、容错的实时计算系统,属于流处理平台,多用于实时计算并更新数据库。

关于Hadoop大数据分析,需要掌握哪些技术,以上就为大家做了简单的介绍了。Hadoop因为技术成熟,生态完善,在市场上的占有率仍然很高,基于Hadoop的大数据分析,对整个生态的技术需要有相应的掌握。成都加米谷大数据,专业大数据培训机构,Hadoop大数据零基础班,本月正在招生中,课程大纲及免费试听可联系客服获取!
热点排行
推荐文章
立即申请>>