主页 > 新闻资讯 > 大数据学习:数据仓库建模之维度建模

大数据学习:数据仓库建模之维度建模

作者:张老师 浏览次数: 2021-01-27 17:32
大数据背景下的数据仓库,面临更大规模、更复杂的数据类型,因此在数仓建设上也面临更加复杂的需求,因此在数据仓库建模的选择上,往往更加青睐维度建模。今天的大数据学习分享,我们就主要来讲讲数据仓库建模当中的维度建模。

大数据学习:数据仓库建模之维度建模

维度建模的概念

维度建模的理念,最早是由Kimball提出,是典型的总线式自下而上的数仓架构体系。

操作型或事务型系统的数据源,通过ETL抽取转换和加载到数据仓库的ODS层,然后通过ODS的数据,利用维度建模方法建设一致维度的数据集市。通过一致性维度可以将数据集市联系在一起,由所有的数据集市组成数据仓库。

维度建模由维度表与事实表组成,事实表提供量化的指标,维度表提供业务分析关注的维度。根据平衡维度表的规范性与易用性,又可以拆分为星型模型与雪花模型。

通俗的说当需要分析维度主体的所有维度时,如果可以在一个维度表里获取主体的所有属性,例如分析用户主体,对应的维度表里包含用户本身的属性,加上用户注册日对应的日期维度属性,加上用户常住地对应的地理维度属性,加上用户所属公司的组织属性等,那么这就是典型的星型模型。相反,如果需要不断的关联这些扩展维度的表,那么就是雪花模型。

大数据学习:数据仓库建模之维度建模

维度建模的步骤

①选择需要分析的业务过程

确定什么主体在什么过程中做了什么事情,或者是某个主体在某个节点的某个状态,例如需要分析用户在访问App过程中阅读文章的情况。

②选择细分的粒度

确定关注过程最细的粒度,例如每个用户在访问App过程中的每一次阅读文章,也可以是每个用户每一天阅读文章的汇总。在存储能力与算力都足够的情况下,推荐用相对细的粒度来构建。

③选择需要分析的维度,设计维度表

确定需要关注的维度,也就是拆解与聚合指标时的属性组。

④选择需要衡量的指标,设计事实表

也就是对于设计对于分析来说有意义的指标。

根据单一的需求去进行维度建模其实并没有什么难度,只要掌握简单的维度建模理论,有基础的代码开发功底,能够与业务方沟通清楚展现数据所需要的指标与维度,大概率会较好的满足业务需求。

好的维度建模需要遵守一致性维度与一致性事实,也就是Kimball称为的总线架构。这就要求数据人员不仅能够由需求而来,从下到上推动构建,同样也要有从上到下,从业务理解与需求抽象中提取不同业务主题最关注的事实与维度,并能够在同一个主题下对于需要关注的其他类事件与维度做到可插拔的功能。

维度建模是展现数据的首选,在满足业务需求时有着范式建模无法比拟的优势:技能要求低,适应快速变化的业务逻辑,能够让业务方直接接触到数据转化信息的快感,但相对于以数据组织为主的范式建模来说,其稳定性差,维护成本高。

关于大数据学习,数据仓库建模之维度建模,以上就为大家做了简单的介绍了。在互联网行业当中,维度建模因其各方面的优势,更符合需求,因此得到重用。成都加米谷大数据,专业大数据培训机构,大数据开发、数据分析挖掘,零基础班本月正在招生中,课程大纲及学习视频可联系客服领取!
热点排行
推荐文章
立即申请>>