主页 > 新闻资讯 > 大数据培训班课程:实时数据体系架构搭建

大数据培训班课程:实时数据体系架构搭建

作者:张老师 浏览次数: 2020-06-24 17:28
大数据发展到如今,实时处理处理已经成为普遍的需求,而为了满足各个场景下的实时数据处理需求,也有相应的技术解决方案。在不同的场景下,基于实际的需求,去搭建大数据系统平台,需要具备相应的技术实力。今天的大数据培训班课程分享,我们来聊聊实时数据体系架构搭建。

大数据培训班课程

实时数据体系主要在三类场景当中常见:流量类、业务类和特征类。

在数据模型上,流量类是扁平化的宽表,业务数仓更多是基于范式的建模,特征数据是KV存储;

从数据来源区分,流量数仓的数据来源一般是日志数据,业务数仓的数据来源是业务binlog数据,特征数仓的数据来源则多种多样;

从数据量而言,流量和特征数仓都是海量数据,每天十亿级以上,而业务数仓的数据量一般每天百万到千万级;

从数据更新频率而言,流量数据极少更新,则业务和特征数据更新较多,流量数据一般关注时序和趋势,业务数据和特征数据关注状态变更;

在数据准确性上,流量数据要求较低,而业务数据和特征数据要求较高。

面对不同场景下的数据处理需求,在搭建数据体系架构的时候,都需要考虑到,并且能够提供稳固的支持。

实时数据体系架构分为五层,分别是接入层,存储层,计算层、平台层和应用层。

接入层:该层利用各种数据接入工具收集各个系统的数据,包括binlog日志、埋点日志、以及后端服务日志;

存储层:该层对原始数据、清洗关联后的明细数据进行存储,基于统一的实时数据模型分层理念,将不同应用场景的数据分别存储在Kafka、HDFS、Kudu、Clickhouse、Hbase、Redis、Mysql等存储引擎中;

计算层:计算层主要使用Flink、Spark、Presto等计算引擎,Flink计算引擎主要用于实时数据同步、流式ETL、关键系统秒级实时指标计算场景,Spark SQL主要用于复杂多维分析的准实时指标计算需求场景,Presto主要满足多维自助分析、对查询响应时间要求不太高的场景;

平台层:在平台层主要做三个方面的工作,分别是对外提供统一查询服务、元数据及指标管理、数据质量及血缘;

应用层:以统一查询服务对各个业务线数据场景进行支持,业务主要包括实时大屏、实时数据产品、实时OLAP、实时特征等。

关于大数据培训班课程,实时数据体系架构搭建,以上就为大家做了一个简单的介绍了。企业级的大数据系统平台的搭建,需要工程师们掌握相关的技术框架,并且熟练掌握它们各自的适用场景。加米谷大数据,成都大数据培训机构,专业大数据培训班课程,本月正在招生中,课程大纲技术及试学视频可联系客服获取!
热点排行
推荐文章
立即申请>>