1.维度表概述
维度表是对业务过程的上下文描述,主要包含代理键、文本信息和离散的数字。它是进入事实表的入口,丰富的维度属性给出了对事实表的分析切割能力,它一般是行少列多。如果属性值是离散的,用于过滤和标记的,就放到维度表里,如果是属性值是连续取值,用于计算的,就放到事实表中。
2.维度的基本设计方法
维度的设计过程就是确定维度属性的过程,如何生成维度属性,以及所有生成维度属性的优势,决定了维度使用的方便性。
Kimball所说,数据仓库的能力直接与维度属性的质量和深度成正比。
2.1 第一步:选择维度或新建维度
作为维度建模的核心,在企业级数据仓库中必须保证维度的唯一性,以淘宝商品维度为例,有且只允许有一个维度定义;
2.2 第二步:确定主维表
此处的主维表一般是ODS表,直接与业务系统同步。以淘宝商品维度为例,s_auction_auctions是与前台商品中心系统同步的商品,此表即是主维表;
2.3 第三步:确定相关维表
数据仓库是业务源系统的数据整合,不同业务系统或者同一业务系统中的表之间存在关联性。根据对业务的梳理,确定哪些表和主维表存在关联关系,并选择其中的某些表用于生成维度属性。以淘宝商品维度为例,根据对业务的逻辑梳理,可以得到商品与类目、SPU、卖家、店铺等维度存在关联关系;
2.4 第四步:确定维度属性
第一个阶段是从主维表选择维度属性或生成新的维度属性;
&nbs