主页 > 新闻资讯 > 云计算大数据开发培训:云计算大数据技术汇总

云计算大数据开发培训:云计算大数据技术汇总

作者:张老师 浏览次数: 2020-06-01 18:08
与大数据紧密关联的云计算,这两者都在大数据时代得到重用,在大数据处理当中,云计算技术与大数据技术都有应用,在数据处理的不同环节当中,各自发挥着各自的作用。今天的云计算大数据开发培训分享,我们就来对云计算大数据技术做一个简单的介绍。

云计算大数据开发培训

一、数据采集与预处理

对于各种来源的数据,这些结构化和非结构化的海量数据是零散的,数据采集就是将这些数据写入数据仓库中,把零散的数据整合在一起,对这些数据综合起来进行分析。

数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时候,可以写个定时的脚本将日志写入存储系统,但随着数据量的增长,需要更强壮的解决方案。

Flume NG作为实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时,对数据进行简单处理,并写到各种数据接收方(比如文本,HDFS,Hbase等)。

Logstash是开源的服务器端数据处理管道,能够同时从多个来源采集数据、转换数据,然后将数据发送到您最喜欢的 “存储库” 中。一般常用的存储库是Elasticsearch。

Sqoop,用来将关系型数据库和Hadoop中的数据进行相互转移的工具,可以将一个关系型数据库(例如Mysql、Oracle)中的数据导入到Hadoop(例如HDFS、Hive、Hbase)中,也可以将Hadoop(例如HDFS、Hive、Hbase)中的数据导入到关系型数据库(例如Mysql、Oracle)中。

二、数据存储

Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。

HBase,可以认为是HDFS的封装,本质是数据存储、NoSQL数据库。HBase是一种Key/Value系统,部署在HDFS上,克服了HDFS在随机读写这个方面的缺点,与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。

Phoenix,相当于一个Java中间件,帮助开发工程师能够像使用JDBC访问关系型数据库一样访问NoSQL数据库HBase。

三、数据清洗

MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算,”Map(映射)”和”Reduce(归约)”,是它的主要思想。

Oozie是用于Hadoop平台的一种工作流调度引擎,提供了RESTful API接口来接受用户的提交请求(提交工作流作业),当提交了workflow后,由工作流引擎负责workflow的执行以及状态的转换。

Azkaban也是一种工作流的控制引擎,可以用来解决有多个hadoop或者spark等离线计算任务之间的依赖关系问题。

四、数据查询分析

Hive是为大数据批量处理而生的,Hive的出现解决了传统的关系型数据库(MySql、Oracle)在大数据处理上的瓶颈。Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。

Impala是对Hive的一个补充,可以实现高效的SQL查询。使用Impala来实现SQL on Hadoop,用来进行大数据实时查询分析。

关于云计算大数据开发培训,云计算大数据技术,以上就为大家做了一个简单的介绍了。大数据要实现处理,高度依赖于这些专业的技术,而掌握这些技术的程度,就代表着你的成长高度。加米谷大数据,成都大数据培训机构,云计算大数据开发,高级技能提升班,本月正在招生中,课程大纲及试听课程可联系客服获取!
热点排行
推荐文章
立即申请>>