数据仓库中的主题域(Subject Area)划分是数仓建设的顶层设计,其核心目标是:
从业务视角出发,对庞杂的数据进行逻辑归类,形成高内聚、低耦合、稳定可扩展的数据组织结构。
下面从 定义、原则、方法、示例、常见误区 五个方面系统讲解如何科学划分主题域。
一、什么是主题域?
定义:
主题域 是围绕企业某一类核心业务过程或业务对象组织起来的逻辑数据集合,代表一个相对独立、稳定的业务分析领域。
特点:
- ✅ 业务导向:源于业务需求,而非技术或源系统;
- ✅ 高内聚:域内数据关联紧密(如“订单”与“支付”);
- ✅ 低耦合:域间边界清晰,通过公共维度(如 user_id)关联;
- ✅ 稳定性强:不随报表或应用频繁变动;
- ✅ 可复用:支撑多个下游分析场景。
示例(电商):
| 主题域 | 包含的核心内容 |
|---|---|
| 用户域 | 注册、登录、画像、行为日志、会员等级 |
| 商品域 | SKU/SPU、类目、品牌、库存、价格 |
| 交易域 | 订单、支付、退款、优惠券使用、售后 |
| 营销域 | 活动、广告投放、优惠券发放、拉新转化 |
| 物流域 | 发货、配送、签收、退换货轨迹 |
| 内容域 | 商品评论、社区发帖、直播互动 |
二、划分主题域的五大原则
| 原则 | 说明 |
|---|---|
| 1. 以业务过程为中心 | 围绕关键业务事件(如下单、支付、浏览)组织数据,参考 Kimball 总线矩阵思想 |
| 2. 高内聚、低耦合 | 域内实体关系紧密,域间仅通过公共维度(如 user_id, product_id)关联 |
| 3. 覆盖全业务价值链 | 从获客 → 转化 → 服务 → 复购 → 留存,端到端覆盖 |
| 4. 抽象适度、保持稳定 | 不宜过细(如“手机订单”)或过粗(如“所有业务”),通常 5~15 个为宜 |
| 5. 业务共建、避免技术视角 | 与业务方共同确认,而非按源系统(如 MySQL、Kafka)划分 |
三、划分步骤(实操方法)
步骤 1️⃣:梳理核心业务流程
- 绘制端到端业务流:用户如何从看到广告到完成复购?
- 识别关键业务事件:注册、浏览、加购、下单、支付、评价等。
步骤 2️⃣:识别核心业务实体
- 用户、商品、订单、门店、活动、客服工单等;
- 这些是主题域的“锚点”。
步骤 3️⃣:聚类相关实体与过程
- 将关联紧密的实体归为一类:
- 用户 + 行为日志 → 用户域
- 订单 + 支付 + 退款 → 交易域
- 商品 + 类目 + 库存 → 商品域
步骤 4️⃣:定义边界与交互关系
- 明确每个域“负责什么,不负责什么”;
- 绘制 主题域关系图,标注跨域关联键(如 user_id)。
步骤 5️⃣:评审与迭代
- 与业务、产品、分析师对齐;
- 随业务演进动态调整(如新增“直播”“跨境”域)。
四、不同行业主题域示例
🛒 电商/零售
- 用户域|商品域|交易域|营销域|物流域|内容域|风控域
🏦 金融(银行/保险)
- 客户域|账户域|产品域(理财/贷款/保险)|交易域|渠道域|风控域
🏥 医疗健康
- 患者域|医生/机构域|药品域|就诊域|健康档案域
🚗 智能制造
- 设备域|生产域|质量域|供应链域|能耗域
五、主题域在数仓分层中的作用
ODS(原始数据层)
│
├─ DWD(明细数据层) → **严格按主题域建模**
│ ├─ dwd_user_login_di
│ ├─ dwd_trade_order_di
│ └─ dwd_product_sku_df
│
├─ DWS(汇总数据层) → 跨主题域轻度聚合
│ └─ dws_user_trade_1d(用户+交易)
│
└─ ADS(应用数据层) → 面向具体报表/APP
🔑 DWD 层是主题域落地的核心,确保数据一致性与可复用性。
六、常见误区与避坑指南
| 误区 | 正确做法 |
|---|---|
| ❌ 按源系统划分(如“订单库”、“日志库”) | ✅ 打破源系统边界,按业务逻辑融合 |
| ❌ 主题域 = 报表需求 | ✅ 主题域是底层逻辑,报表是上层应用 |
| ❌ 一次性划分完美,永不变更 | ✅ 随业务演进持续优化(如新增“直播域”) |
| ❌ 技术人员闭门造车 | ✅ 与业务方共建共识,确保“业务可读” |
| ❌ 域内包含无关数据(如交易域存用户头像) | ✅ 严格遵循“单一职责”,头像应归属用户域 |
七、总结:好的主题域长什么样?
✅ 业务人员能看懂
“交易域就是我们所有的买卖记录,没错!”
✅ 开发人员能建模
“所有订单相关字段都在 dwd_trade_* 表中,不用到处找。”
✅ 分析师能自助
“我想分析用户复购,先去用户域拿 ID,再去交易域关联。”
✅ 架构具备扩展性
新增“跨境业务”?只需扩展交易域或新增跨境子域,不影响其他模块。
💡 主题域不是技术设计,而是业务语言的翻译器。
它让数据仓库从“一堆表”变成“一本业务字典”,真正成为企业的数据资产基石。
1080

被折叠的 条评论
为什么被折叠?



