大数据的技术培训之大数据通用技术架构

作者：张老师浏览次数： 2020-06-11 18:09

企业的大数据业务的实现，主要是通过开源的大数据框架技术，来搭建自己的大数据系统平台，从而实现大数据处理。而企业大数据业务的开展，必然需要专业的大数据技术人员支持。今天的大数据的技术培训分享，我们主要来聊聊大数据通用技术架构。

大数据通用框架下的大数据体系，通常分为以下几个层次——

数据源、数据收集层、数据存储层、资源管理与服务协调层、计算引擎层、数据分析层及数据可视化层。

数据收集层：

数据收集层直接与数据源对接，负责采集产品使用过程中生成的日志，具有分布式、通用化等属性。

在以Hadoop/Spark为代表的开源框架下，数据收集层通常有如下几种方案选择：

Sqoop：对于关系型数据库的全量导入比较通用；

Canal：对于关系型数据库的增量导入比较通用；

Flume：对于非关系型日志采集比较通用，例如文本日志等；

Kafka：分布式消息队列，类似于数据通道的概念，具有分布式高容错的特点。

数据存储层：

数据存储层主要负责数据的落地和存储，包括了关系型数据和非关系型数据，并拥有中央化的调度体系。

在以Hadoop/Spark为代表的开源框架下，数据存储层通常有如下几种方案选择：

HDFS：分布式文件系统，具有非常好的扩展性与容错性，非常合适搭建在廉价设备上；

HBase：以HDFS为基础构建的分布式数据库，能够存储结构化与半结构化数据，支持行与列的无限扩展；

Kudu：Cloudera开源的运行在HDFS上的列式存储系统，具备扩展性与高可用性。

资源管理与服务协调层：

为了将所有的技术框架部署在统一的平台上，共享机器资源，因而引入了资源管理与服务协调层。

在以Hadoop/Spark为代表的开源框架下，资源管理与服务协调层通常有如下几种方案选择：

Yarn：Hadoop框架中负责统一资源管理与调度的系统，能够集中管理机器资源（CPU、内存等），并且能够按照队列的方式调度任务；

Zookeeper：分布式协调服务，基于Paxos算法实现，提供分布式队列、分布式锁等复杂场景的解决方案。

计算引擎层：

计算引擎主要分为批处理和流处理两种场景：当数据量庞大并且实时性要求不高时，或者计算逻辑复杂时，采用批处理的方式计算数据，追求高吞吐量；当数据量适中且实时性要求高，且计算逻辑相对简单时，采用流处理方式计算数据，追求低延迟性。

目前Hadoop/Spark为代表的开源框架下常用的方案如下：

MapReduce：经典的批处理引擎，具有非常好的扩展和容错性；

Impala/Presto/Drill：使用标准SQL处理存储在HDFS上的数据；

Spark：通过DAG引擎，主要利用内存进行快速的数据挖掘；

Storm/Spark Streaming/Flink：流式处理系统，都具备良好的容错和扩展性。

数据分析层：

出于平台端的技术考虑，该层采用Mysql、Oracle、Postgresql等关系型数据库的方案较多。按照通常的分类方式，有如下几种：

Impala/Presto/Drill：交互式计算引擎代替实现；

Mysql/Oracle/Postgresql：关系型数据库实现；

Hive/Pig：海量数据下的计算实现；

Mahout/MLlib：常用的机器学习和数据挖掘算法集合，最初基于MapReduce实现，现在大部分由Spark实现；

Beam/Cascading：统一了批处理和流式计算两种框架，提供了更高级的API来实现计算逻辑。

数据可视化层：

在大数据场景下，通常由前端插件来实现，如ECharts等，实现选择的方案较多。

关于大数据的技术培训，大数据通用技术架构，以上就为大家做了一个详细的介绍了。大数据在快速发展当中，大数据技术也在不断更新当中，学习大数据，在这部分需要多下功夫。加米谷大数据，成都大数据培训机构，大数据技术提升班，本月正在招生中，课程大纲及试学视频可联系客服获取！

标签：大数据技术大数据框架大数据架构

上一篇：互联网大数据开发培训课程：Hadoop与Spark对比
下一篇：大数据技术培训班之Hadoop数据存储

相关推荐

大家都在看

热点排行

推荐文章