主页 > 新闻资讯 > 大数据开发知识培训:大数据需要掌握那些技术

大数据开发知识培训:大数据需要掌握那些技术

作者:张老师 浏览次数: 2020-07-01 18:21
要实现对海量大数据的处理,离不开大数据技术的支持,以Hadoop为首的大数据技术框架,因为成熟稳定,从而成为大数据落地发展的催化剂,使得大数据快速从概念走向落地。今天的大数据开发知识培训分享,我们来聊聊大数据需要掌握那些技术?

大数据开发知识培训

1、Hadoop核心

(1)分布式存储基石:HDFS

掌握HDFS数据块,NameNode,DataNode、数据写入与读取过程、数据复制、HA方案、文件类型、HDFS常用设置Java API等。

(2)分布式计算基础:MapReduce

掌握MapReduce编程模型、Java API、MapReduce调优等。

(3)Hadoop集群资源管家:YARN

掌握YARN基本架构,资源调度过程,调度算法等。

2、离线计算框架

(1)离线日志收集利器:Flume

掌握Flume日志收集、适宜场景等。

(2)离线批处理必备工具:Hive

掌握Hive总体架构、使用场景表的分区、分桶和抽样优化等。

(3)速度更快的Hive:Impala

掌握Impala架构,数据处理过程一般使用步骤、Impala与Hive的比较常用配置与最佳使用建议(查错,调优等)。

(4)更快更强更好用的MR:Spark

掌握Spark编程(计算模型RDD、算子Transformation和Actions的使用、使用Spark制作倒排索引)Spark SQL和DataFrame等。

3、实时计算框架

(1)流数据集成神器:Kafka

掌握Kafka构成、工作原理、核心API生态圈代码。

(2)实时计算引擎:Spark Streaming

掌握Spark Streaming工作原理、编写Streaming程序的一般过程、部署Streaming程序监控Streaming程序、性能调优等。

(3)海量数据高速存取数据库:HBase

掌握HBase架构及基本组件、HBase Table设计、HBase基本操作等。

4、大数据ETL

(1)ETL神器:Sqoop,Kettle

掌握Kettle常用组件、抽取Mysql数据到Hive、抽取Hive数据到Mysql等。

(2)任务调度双星:Oozie,Azkaban

掌握ETL与计算任务的统一管理和调度、Oozie和Azkaban方案等。

5、大数据应用与数据挖掘

(1)大数据全文检索引擎:Elasticsearch

掌握全文检索基础知识,ES安装及初级介绍,ES深入理解及使用等。

(2)数据仓库搭建

掌握大数据平台数据仓库经典架构、“五横一纵”的架构等。

关于大数据开发知识培训,大数据需要掌握那些技术,以上就为大家做了一个大致的汇总。在面对大数据的实际需求上,这些技术框架都有适用的场景和方案,这就需要工程师们具备技术选型的能力了。成都加米谷大数据,专业大数据培训机构,大数据开发零基础班,本月正在招生中,课程大纲及试学视频可联系客服领取!
热点排行
推荐文章
立即申请>>