主页 > 新闻资讯 > 大数据基础课程培训内容:大数据平台架构搭建

大数据基础课程培训内容:大数据平台架构搭建

作者:张老师 浏览次数: 2020-05-12 18:03
在大数据学习当中,需要对大数据主流的技术框架逐个击破,尤其是在大数据开发方向的学习上,对大数据技术的学习和掌握,是重中之重,企业招聘也最看重技术能力的掌握程度。今天的大数据基础课程培训内容分享,我们来聊聊大数据平台架构搭建。

大数据平台架构的搭建,通常分为五个层次,各个层次需要的技术框架有很多,需要开发人员根据需求来选择。

大数据基础课程培训内容

1、数据传输层

Sqoop:支持RDBMS和HDFS之间的双向数据迁移,通常用于抽取业务数据库(比如MySQL、SQLServer、Oracle)的数据到HDFS.

Flume:用于海量日志采集、聚合和传输,将产生的数据保存到HDFS或者HBase中。

Flume+Kafka:满足实时流式日志的处理,后面再通过Spark Streaming等流式处理技术,可完成日志的实时解析和应用。

2、数据存储层

HDFS:分布式文件系统,它是分布式计算中数据存储管理的基础,具备高容错、高吞吐和高扩展性。

HBase:分布式的、面向列的NoSQL KV数据库,利用HDFS作为其文件存储系统,适合大数据的实时查询(比如:IM场景)。

3、资源管理层

Yarn:Hadoop的资源管理器,负责Hadoop集群资源的统一管理和调度,为运算程序(MR任务)提供服务器运算资源(CPU、内存),能支持MR、Spark、Flink等多种框架。

4、数据计算层

大数据计算引擎决定了计算效率,是大数据平台最核心的部分,分为离线计算框架和实时计算框架。

离线计算框架:

MapReduce:面向大数据并行处理的计算模型、框架和平台。

Hive:一个数据仓库工具,能管理HDFS存储的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能。

Spark sql:引入RDD(弹性分布式数据集)这一特殊的数据结构,将SQL转换成RDD的计算,并将计算的中间结果放在内存中,因此相对于Hive性能更高,适用实时性要求较高的数据分析场景。

实时计算框架:

Spark Streaming:实时流数据处理框架,可以接收Kafka、Flume、HDFS等数据源的实时输入数据,经过处理后,将结果保存在HDFS、RDBMS、HBase、Redis、Dashboard等地方。

Storm:实时流数据处理框架,真正的流式处理,每条数据都会触发计算,低延迟(ms级延迟)。

Flink:更高级的实时流数据处理框架,相比Storm,延迟比storm低,而且吞吐量更高,另外支持乱序和调整延迟时间。

5、多维分析层

Kylin:分布式分析引擎,能在亚秒内查询巨大的Hive表,通过预计算(用空间换时间)将多维组合计算好的结果保存成Cube存储在HBase中,用户执行SQL查询时,将SQL转换成对Cube查询,具有快速查询和高并发能力。

关于大数据基础课程培训内容,大数据平台架构搭建,以上就是一个简单的介绍了。千万不要小看这些名词,每个框架的学习掌握,都需要付出相应的时间和努力。加米谷大数据,成都大数据培训机构,大数据基础课程班,本月正在招生中,课程大纲及学习资料,可联系客服获取!
热点排行
推荐文章
立即申请>>