我们继续用“开餐馆”的比喻,来彻底讲清楚DWS(数据服务层/汇总层)的“轻度汇总”到底在做什么。
如果把DWD层比作中央厨房的“标准半成品区”(这里存放着切好的标准肉丁、配好的菜料包),那么DWS层就是各个档口的“预加工区”。
- 麻辣烫档口的伙计会提前把几种常卖的食材穿成串(比如:牛肉串、香菇串、青菜串)。
- 烧烤档口的伙计会提前把羊肉腌好、切成块。
- 煲汤档口的伙计会提前把汤底熬好。
这么做的目的只有一个:在出餐高峰时,能极度快速地做出一道菜,而不是每次都从切肉开始。
DWS层的核心思想:空间换时间,效率至上
DWS层就是在用存储空间(存一份轻度汇总的数据)来换取后续极其恐怖的查询计算速度。
它的工作是基于DWD层明细数据,按照常见的分析维度(主题) 进行提前聚合,形成一些粒度较粗的表。
具体做什么?—— 三大核心操作
1. 确定汇总主题 (What to Summarize?)
这是第一步,基于业务中最常见、最频繁的分析需求来确定主题。常见的主题有:
- 用户主题:分析用户行为、用户价值。
- 商品主题:分析商品销量、业绩。
- 流量主题:分析渠道效果、页面访问。
- 交易主题:分析销售业绩、各地区贡献。
2. 选择汇总粒度 (The Grain of Summary)
这是最关键的一步,决定了汇总表的粗细程度。它比DWD的“原子粒度”要粗。
- DWD粒度:
一个用户的一次行为、一个订单中的一个商品(最细粒度)。 - DWS粒度(示例):
- 一天 + 一个用户 -> 用户日汇总表
- 一天 + 一个商品 -> 商品日汇总表
- 一天 + 一个省份 -> 地区日汇总表
- 一天 + 一个渠道 -> 渠道日汇总表
3. 进行轻度汇总 (The Act of Summarization)
基于上面确定的主题和粒度

最低0.47元/天 解锁文章
7060

被折叠的 条评论
为什么被折叠?



