主页 > 新闻资讯 > 大数据学习:数据仓库分层设计

大数据学习:数据仓库分层设计

作者:张老师 浏览次数: 2021-01-26 17:31
在企业级大数据平台的搭建过程中,数据仓库的建设是非常重要的一部分,而数据仓库的建设,一个基本的目标,就是需要使数据仓库秩序井然,架构清晰,能够满足业务发展不断提出的新的需求。今天的大数据学习分享,我们就主要来讲讲,数据仓库分层设计。

按照数据操作的流程,通常将数据模型分为三层:数据操作层(ODS)、数据仓库层(DW)和数据应用层(APP)。

大数据学习:数据仓库分层设计

具体来说,ODS层存放的是接入的原始数据,DW层存放的是数据仓库中的数据,APP层存放的是面向业务定制的应用数据。

数据仓库分层设计

1)数据操作层(ODS)

数据操作层又叫数据运营层,是最接近数据源中数据的一层,数据源中的数据,经过ETL(即抽取、转换、装载),装入本层。本层中的数据,大多是按照源业务系统的分类方式而分类的。

由于该层是最接近数据源的,所以不建议对该层数据做过多的数据清洗工作,原封不动地接入原始数据就行,至于数据的去噪、去重、去异常值等操作可以放在后面的DWD层来做。

2)数据仓库层(DW)

数据仓库层,是设计数据仓库时要核心设计的一层。在这里,从ODS层获得的数据按照主题建立各种的数据模型。DW层又要细分为DWD(Data Warehouse Detail)层、DWM(Data Warehouse Middle)层和DWS(Data Warehouse Service)层。

大数据学习:数据仓库分层设计

①数据明细层(DWD)

数据明细层,该层和ODS层一般保持一样的数据粒度,并且提供一定的数据质量保证。同时,为了提高数据明细层的易用性,该层会采用一些维度退化的方法,将维度退化至事实表,减少事实表和维表的关联。

另外,在该层也会做一部分的数据聚合,将相同主题的数据汇集到一张表中,提高数据的可用性。

②数据中间层(DWM)

数据中间层,英文:Data Warehouse Middle,该层会在DWD层的数据基础上,对数据做轻度的聚合,生成一系列的中间表,提升公共指标的复用性,减少重复加工。直观来讲,就是对通用的核心维度进行聚合操作,算出相应的统计指标。

③数据服务层(DWS)

数据服务层又叫数据集市或宽表,按照业务划分,如流量、订单、用户等,生成字段比较多的宽表,用于提供后续的业务查询、OLAP分析、数据分发等。

一般来讲,该层的数据表会相对比较少,一张表会涵盖比较多的业务内容,由于其字段较多,因此一般也会称为该层的表为宽表。

3)数据应用层(APP)

数据应用层,主要提供给数据产品和数据分析使用的数据。该层的数据一般会存放在Redis、PostgreSql等共线上系统使用的系统,也可能会存放在Hive、Druid中供数据分析和数据挖掘使用,比如报表数据就可以存放在Hive中。

4)维度层(DIM)

维度层,建立一致数据分析维表,可以降低数据计算口径和算法不统一风险。以维度作为建模驱动,基于每个维度的业务含义,通过定义维度及维度主键,添加维度属性、关联维度等定义计算逻辑和雪花模型,完成属性定义的过程并建立一致的数据分析维表。

维度层包含两个部分:

①高基数维度数据:一般是用户资料表、商品资料表类似的资料表,数据量可以上千万甚至上亿。

②低基数维度数据:一般是配置表,比如枚举值对应的中文含义,或者日期维度表,数据量大概在几千到几万之间。

关于大数据学习,数据仓库分层设计,以上就为大家做了简单的介绍了。在数据仓库设计当中,数据分层是重要的环节,依据企业的实际数据类型,结合需求来进行分层规划。成都加米谷大数据,专业大数据培训机构,大数据开发、数据分析挖掘,零基础班本月正在招生中,课程大纲及学习视频可联系客服领取!
热点排行
推荐文章
立即申请>>