主页 > 新闻资讯 > 大数据的技术培训之大数据通用技术架构

大数据的技术培训之大数据通用技术架构

作者:张老师 浏览次数: 2020-06-11 18:09
企业的大数据业务的实现,主要是通过开源的大数据框架技术,来搭建自己的大数据系统平台,从而实现大数据处理。而企业大数据业务的开展,必然需要专业的大数据技术人员支持。今天的大数据的技术培训分享,我们主要来聊聊大数据通用技术架构。

大数据通用框架下的大数据体系,通常分为以下几个层次——

大数据的技术培训

数据源、数据收集层、数据存储层、资源管理与服务协调层、计算引擎层、数据分析层及数据可视化层。

数据收集层:

数据收集层直接与数据源对接,负责采集产品使用过程中生成的日志,具有分布式、通用化等属性。

在以Hadoop/Spark为代表的开源框架下,数据收集层通常有如下几种方案选择:

Sqoop:对于关系型数据库的全量导入比较通用;

Canal:对于关系型数据库的增量导入比较通用;

Flume:对于非关系型日志采集比较通用,例如文本日志等;

Kafka:分布式消息队列,类似于数据通道的概念,具有分布式高容错的特点。

数据存储层:

数据存储层主要负责数据的落地和存储,包括了关系型数据和非关系型数据,并拥有中央化的调度体系。

在以Hadoop/Spark为代表的开源框架下,数据存储层通常有如下几种方案选择:

HDFS:分布式文件系统,具有非常好的扩展性与容错性,非常合适搭建在廉价设备上;

HBase:以HDFS为基础构建的分布式数据库,能够存储结构化与半结构化数据,支持行与列的无限扩展;

Kudu:Cloudera开源的运行在HDFS上的列式存储系统,具备扩展性与高可用性。

资源管理与服务协调层:

为了将所有的技术框架部署在统一的平台上,共享机器资源,因而引入了资源管理与服务协调层。

在以Hadoop/Spark为代表的开源框架下,资源管理与服务协调层通常有如下几种方案选择:

Yarn:Hadoop框架中负责统一资源管理与调度的系统,能够集中管理机器资源(CPU、内存等),并且能够按照队列的方式调度任务;

Zookeeper:分布式协调服务,基于Paxos算法实现,提供分布式队列、分布式锁等复杂场景的解决方案。

计算引擎层:

计算引擎主要分为批处理和流处理两种场景:当数据量庞大并且实时性要求不高时,或者计算逻辑复杂时,采用批处理的方式计算数据,追求高吞吐量;当数据量适中且实时性要求高,且计算逻辑相对简单时,采用流处理方式计算数据,追求低延迟性。

目前Hadoop/Spark为代表的开源框架下常用的方案如下:

MapReduce:经典的批处理引擎,具有非常好的扩展和容错性;

Impala/Presto/Drill:使用标准SQL处理存储在HDFS上的数据;

Spark:通过DAG引擎,主要利用内存进行快速的数据挖掘;

Storm/Spark Streaming/Flink:流式处理系统,都具备良好的容错和扩展性。

数据分析层:

出于平台端的技术考虑,该层采用Mysql、Oracle、Postgresql等关系型数据库的方案较多。按照通常的分类方式,有如下几种:

Impala/Presto/Drill:交互式计算引擎代替实现;

Mysql/Oracle/Postgresql:关系型数据库实现;

Hive/Pig:海量数据下的计算实现;

Mahout/MLlib:常用的机器学习和数据挖掘算法集合,最初基于MapReduce实现,现在大部分由Spark实现;

Beam/Cascading:统一了批处理和流式计算两种框架,提供了更高级的API来实现计算逻辑。

数据可视化层:

在大数据场景下,通常由前端插件来实现,如ECharts等,实现选择的方案较多。

关于大数据的技术培训,大数据通用技术架构,以上就为大家做了一个详细的介绍了。大数据在快速发展当中,大数据技术也在不断更新当中,学习大数据,在这部分需要多下功夫。加米谷大数据,成都大数据培训机构,大数据技术提升班,本月正在招生中,课程大纲及试学视频可联系客服获取!
热点排行
推荐文章
立即申请>>