数据仓库|当我们用【维度建模】的时候，我们在建什么？

最新推荐文章于 2025-06-10 20:10:23 发布

转载最新推荐文章于 2025-06-10 20:10:23 发布 · 265 阅读

·

0

·

DW 专栏收录该内容

43 篇文章

订阅专栏

本文介绍数据建模的重要性及两种主要系统：OLTP与OLAP。重点讲解维度建模理论，包括其核心思想、应用场景及构建数据仓库的具体步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

--引言--

为什么要数据建模

如果把数据看作图书馆里的书，

我们希望看到他们在书架上分门别类的放置；

如果把数据看作城市的建筑，

我们希望这个城市规划布局能够合理。

数据模型就是一种数据组织和存储方法，

从业务数据存取和使用的角度，

合理地加工存放数据。

传统的关系型数据库系统，

通常面向的数据操作是随机读写，

主要采用满足3NF的ER模型来存储数据，

从而在事务处理中解决数据的冗余和一致性问题，

这种系统叫做OLTP系统。

与之相对的是OLAP系统，

其通常面向的数据操作是批量读写，

更加关注数据的整合，

以及在复杂大数据查询和处理的性能，

因此需要采用一些不同的数据建模方法。

--建模理论之维度建模--

典型的数仓建模方法论，

有ER模型、维度模型、

DataVault模型、Anchor模型等。

其中在业内应用较为广泛，

且作者比较熟悉的就是维度模型，

这个理论由Ralph Kimball大师所倡导。

维度建模理论的核心，

从分析决策的需求出发，

主要是为了分析需求服务。

它重点关注如何快速的完成需求分析，

同时具有较好的

大规模、复杂查询的响应性能，

其典型的代表是星形模型，

以及在一些特殊场景下使用的雪花模型。

--从零开始构建数据仓库--

1.规范定义

在建设的最初期，

需要进行划分和定义

业务板块、数据域、业务过程、

维度、度量/原子指标、修饰类型、

修饰词、时间周期、派生指标等。

只有约定规范好各处定义，

后面的模型设计才好继续展开。

2.构建总线矩阵

有了上面的一些概念后，

这一步便是最为关键且重要的步骤。

构建总线矩阵的目的，

是为了使我们可以十分灵活地，

根据业务排期来逐步开发迭代数仓，

这也是其在工程应用上的优势，

具体流程如下：

1）数据调研：了解业务，并收集数据分析师和运营人员的需求（主要是指标和维度）

2）划分数据域：将了解到的业务过程或维度进行抽象成数据域

3）梳理业务过程：明确业务过程所属的数据域，以及与维度的关系

3.模型设计

基于前面得到的总线矩阵，

我们需要进行如下两类模型的设计：

1）明细模型设计：设计一致性维表DIM和一致性事实表DWD

2）汇总模型设计：设计公用汇总层DWS和应用汇总层ADS

4.模型评审和再设计

本阶段主要召集相关人员

进行模型的审查和验证，

根据审查结果对详细维度进行再设计。

5.模型实施

完成模型详细设计文档后，

提交etl开发人员，

进行后续的物理模型的设计和开发。

ps：其实文中还有一些细节，在此处没有完全讲清楚，比如维度表的设计、事实表的设计等，这些内容我会在工作中不断实践总结后归纳出来，并在后期的文章中持续补充，也欢迎大家对文章内容进行交流和指正。

另外我也有这样一种观点：维度建模不仅仅是数仓领域的一种理论，同时也能够是我们思考问题的一种方法论工具，即基于更加全局的视野，从不同的维度，钻取不同的粒度，辩证地分析问题。

博客等级

码龄17年

405
原创

434
点赞

624
收藏

481
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 大数据环境数据仓库&维度建模

下一篇：: 数据治理之yarn日志解析

最新评论

Flink ui 本地flink ui 报错 {“errors“:[“Not found: /“]}
Roamerjiss: 1.18.0可以打开，注意本地jar是否下载了
【3分钟极速部署】在本地快速部署deepseek
21光年: R1模型参数高达671B，需要1300G显存才能运行满血版。现在普通人常用的4060显卡，显存才6G，就算用A100 80G的显卡，也得16张才能部署。本地部署的，大多部署的是7B蒸馏版模型，和满血R1比起来，又笨又慢，基本没法用。所以，使用第三方服务成了最优选择。
【3分钟极速部署】在本地快速部署deepseek
秉寒: 本地部署运行速度极慢
【3分钟极速部署】在本地快速部署deepseek
秉寒: Ollama 是一个开源的大语言模型（LLM）本地化部署与管理工具，致力于简化模型在个人电脑或服务器上的运行流程。它提供类似 Docker 的便捷命令行操作，支持从官方库快速下载并运行 Llama、Mistral、DeepSeek 等主流开源模型，无需复杂配置即可实现交互式对话或 API 调用。通过量化技术优化显存占用，适配低配置硬件，同时支持跨平台（Windows/macOS/Linux）和 Docker 容器化部署，是开发者、研究者本地探索大模型能力的轻量级解决方案。
ExtJS：从概念到实践的探索之旅
秉寒: 我是在大概在2010年左右用的框架，用于开发一个基于数仓的数据分发系统。现在应该用的人很少了。大家都在技术上精进不少

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。