数据仓库建模理论(二)

(一)数仓建模的目标:

(1) 访问性能,快速查询所需的数据,减少数据I/O
(2) 数据成本:减少不必要的数据冗余,实现计算结果数据复用
(3) 使用效率:改善用户应用体验,提高使用数据效率
(4) 数据质量:改善数据统计口径不一致问题,减少数据计算错误率
在这里插入图片描述

(二)关系模式范式

第一范式(1NF)

域是原子性的,即表中每一列都是不可分割的原子数据项
在这里插入图片描述
规范后:
在这里插入图片描述

第二范式(2NF)

1NF基础上,实体的属性完全依赖于主关键字,不能存在仅依赖主关键字一部分的属性
在这里插入图片描述
规范后:
在这里插入图片描述

第三范式(3NF)

2NF基础上,任何非主属性,完全依赖于其它非主属性
在这里插入图片描述
规范后:
在这里插入图片描述

(三)常见模型理论

(1)ER实体模型:

在这里插入图片描述
实体【矩形】-属性【椭圆形】:关系【菱形】在这里插入图片描述
静态字段:姓名,性别,出生日期,身份证号
动态字段:地址,爱好
在这里插入图片描述
在这里插入图片描述
IDEF1X模型
在这里插入图片描述

(2)维度模型:面向分析场景

Ralph Kimball推崇数据集市的集合为数据仓库,同时也提出了对数据集市的维度建模,将数据仓库中的表划分为事实表、维度表两种类型。

维度,顾名思义,看待事物的角度。比如从颜色、尺寸的角度来比较手机的外观,从cpu、内存等较比比较手机性能
维度表一般为单一主键,在ER模型中,实体为客观存在的事物,会带有自己的描述性属性,属性一般为文本性、描述性的,这些描述被称为维度比如商品,单一主键:商品ID,属性包括产地、颜色、材质、尺寸、单价等,但并非属性一定是文本,比如单价、尺寸,均为数值型描述性的,日常主要的维度抽象包括:时间维度表、地理区域维度表等

dim_商品:名称产地,颜色,尺寸,单价
dim_时间:日期,周几,是否周末,是否假期,特殊日期
#常见的维度
时间,地区(省份,城市)

某电商案例:
事实表:订单表、订单明细表
维度表:商品维度、用户维度、商家维度、区域维度、时间维度

商品维度:商品ID、商品名称、商品种类、单价、产地等
用户维度:用户ID、姓名、性别、年龄、常住地、职业、学历等
时间维度:日期ID、日期、周几、上/中/下旬、是否周末、是否假期等
优惠券:券ID、券类别、优惠金额

订单中包含的度量:商品件数、总金额、总减免
描述性属性:下单时间、结算时间、订单状态等
订单明细包含度量:商品ID、件数、单价、减免金额
描述性熟悉:入购物车时间、状态

星型模型和雪花模型主要区别就是对维度表的拆分,对于雪
花模型,维度表的涉及更加规范,一般符合3NF;而星型模型,一般采用降维的操作,利用冗余来避免模型过于复杂,提高易用性和分析效率

(1)星型模型
在这里插入图片描述
(2)雪花模型
在这里插入图片描述

(3)DataVault 中心辐射式模型:

pk商品ID:商品ID,数据来源 -->中心表
pk授课ID:教师ID,课程ID -->链接表
pk商品ID:商品属性 -->卫星表
在这里插入图片描述
划分规则:
在这里插入图片描述

(四)数据分层

在这里插入图片描述
CIF层次
在这里插入图片描述
APP:应用层
DM:维度建模,面向特定主题
DWS:维度建模,公共汇总层,避免重复计算
DWD:ER模型,去掉脏数据,无效数据,命名不规范的统一处理
ODS:ER模型,从各个业务系统中抽取过来

(五)注意事项

健壮性,可扩展性
全量更新 or 增量更新
实现成本 or 使用成本
技术可靠性
在这里插入图片描述
离线、准实时都是批处理,只是调度周期的粒度区别
实时处理数据流,有独立常驻进程,实时计算,有建模的过程

实时场景:
 个性化推荐
实时:用户实时信息,比如位置、设备、当前会话浏览情况、最近的浏览内容特征等
离线:商品关联关系、用户相似性特征、位置偏好、设备偏好、关联偏好等信息
 用户画像
实时:实时位置标注、当前偏好标注、当前设备标注
离线:常驻位置、稳定偏好、常用设备、消费水平等标签
 风控
反欺诈、防刷单、薅羊毛等
实时:用户位置、IP、设备、通讯录等
离线:风险区域、风险用户、风险设备、多头等

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值