主页 > 新闻资讯 > Hadoop大数据处理培训:Hadoop数据分析平台

Hadoop大数据处理培训:Hadoop数据分析平台

作者:张老师 浏览次数: 2020-06-29 11:41
大数据时代的来临,一方面是企业对大数据的重视,一方面是大数据技术的成熟,使得大数据在企业落地成为可能。Hadoop作为主流的大数据技术框架,是企业大数据平台搭建的主流选择。今天的Hadoop大数据处理培训分享,我们来聊聊Hadoop数据分析平台如何搭建?

Hadoop作为基础架构平台,围绕Hadoop的技术生态圈,对于各个环节的数据处理需求,都提出了相应的解决方案,如Hive、Spark、Flume、Kafka等,而基于Hadoop来搭建数据分析平台,就需要充分地考虑实际需求。

Hadoop大数据处理培训

一个数据分析平台的基本配置,需要满足数据存储、数据同步、数据计算等环节的要求,具体来看——

1、数据存储

基于Hadoop的数据湖可以采用HDFS、Hive和HBase。HDFS是Hadoop平台的文件存储系统,使用分布式数据库Hive或HBase用来做数据湖,存储接入层、数据仓库、数据集市的数据。

Hive和HBase各有优势:HBase是一个NoSQL数据库,随机查询性能和可扩展性都比较好;而Hive是一个基于HDFS的数据库,数据文件都以HDFS文件(夹)形式存放,存储了表的存储位置(即在HDFS中的位置)、存储格式等元数据,Hive支持SQL查询,可将查询解析成Map/Reduce执行,这对传统的数据分析平台开发人员更友好。

数据集市这块可以选择将数据灌回传统数据库(RDBMS),也可以停留在数据分析平台,使用NoSQL提供数据查询或用Apache Kylin来构建数据立方体,提供SQL查询接口。

2、数据同步

通过数据同步功能使得数据到达接入层,使用到了Sqoop和Kafka。数据同步可以分为全量同步和增量同步,对于小表可以采用全量同步,对于大表全量同步是比较耗时的,一般都采用增量同步,将变动同步到数据平台执行,以达到两边数据一致的目的。

全量同步使用Sqoop来完成,增量同步如果考虑定时执行,也可以用Sqoop来完成。或者,也可以通过Kafka等MQ流式同步数据,前提是外部数据源会将变动发送到MQ。

3、ETL及离线计算

使用Yarn来统一管理和调度计算资源。相较Map/Reduce,Spark SQL及Spark RDD对开发人员更友好,基于内存计算效率也更高,建议选择Spark on Yarn作为分析平台的计算选型。

关于Hadoop大数据处理培训,Hadoop数据分析平台,以上就为大家做了一个基本的介绍了。基于Hadoop搭建数据分析平台,其中涉及到的技术框架很多,尤其要对Hadoop生态圈组件有扎实的基础。成都加米谷大数据,专业大数据培训机构,Hadoop大数据培训班,高级技能提升,课程大纲及试学视频可联系客服领取!
热点排行
推荐文章
立即申请>>