数仓概念

最新推荐文章于 2025-09-28 12:50:46 发布

原创

最新推荐文章于 2025-09-28 12:50:46 发布 · 4k 阅读

10 ·

CC 4.0 BY-SA版权

本文深入探讨了数据仓库的概念，包括事实表、维度表、粒度和建模过程。介绍了星型模型、雪花模型、Data Vault模型及其原则。此外，还详细阐述了数据仓库的开发流程，包括ETL过程、数据清洗步骤以及数据质量的重要性。数据仓库与数据库的主要区别在于前者面向分析，后者面向事务处理。最后，强调了数据清洗在确保数据仓库质量中的关键作用。

数仓
事实表：
指向各个维度的外键，和一些相应的测量数据，事实表中数据很多，维表记录这一维的属性

维度表
每一个维度表利用维度关键字通过事实表中的外键约束于事实表中的某一行，实现与事实表的关联，这就要求事实表中的外键不能为空，这与一般数据库中外键允许为空是不同的。

雪花模型与星型模型不同地方：
雪花模型是对星形模型的扩展，每一个维度都可以向外连接多个详细类别表。
在这种模式中，维度表除了具有星形模型中维度表的功能外，还连接对事实表进行
详细描述的详细类别表，详细类别表通过对事实表在有关维上的详细描述达到了缩小事实表和提高查询效率的目的。

粒度
是指保存数据的细化或综合程度的级别
根据业务处理流程来确定粒度，粒度影响数据仓库中的数据量大小

粒度可以分为两种形式：
1.按时间段综合数据的粒度
2.按采样率高低划分的样本数据库
建模过程
inmon架构和kimball架构
1.外部数据,业务数据库,文档组成操作型数据库
2.抽取数据到数据过滤区,对数据进行处理清洗,去重重构;
3.经过处理后的数据装载到数据仓库
4.数据仓库会装载到数据集市中(inmon架构的数据仓库是三范式企业级的数据仓库,kimball的数据库是多维企业级的数据仓库) 这一步kimball没有
5.最终提供给最总用户接口(数据挖掘,可视化等)

多维数据模型及建模过程
选择业务流程: 确认哪些业务处理流程是数据仓库应该覆盖的,是维度的基础
声明粒度: 确定事实中表示的是什么
确认维度: 说明了事实表的数据是从哪里采集来的,是实施表的基础
确认事实: 识别数字化的度量，构成事实表的记录

Data Vault模型及建模过程
综合了第三范式（3NF）和星型模型优点的建模方法,设计理念是要满足企业对灵活性、可扩展性、一致性和对需求的适应性要求，是一种专为企业级数据仓库量身定制的建模方式。
1．设计中心表: 企业级数据仓库要涵盖的业务范围,将各个业务主体中抽象出能够唯一标识实体的主键,该主键不变化例:客户,产品
2

最低0.47元/天解锁文章