降维:可以看成是一个函数,输入D维的数据,产出M维的向量
例子:淘宝店铺的特征,有非常多的维度,包括‘销售量’,‘宝贝分类’,‘宝贝价格’,‘评论数’..........
假设有两维特征是‘浏览量’和‘访客量’,这两者之间具有强相关性,直觉上删除一个并不会造成多大的信息损失
以上就是一个朴素的降维方法
要求:既能降低维度,又能使损失的信息尽量少
我们最后的理想目标,应该是表中的每个指标,都是弱关联,以此来获得一个完美的维度表。
————————————————————————————————————————————————————————
事实表:用来存储主题的主干内容
一般没有主键,数据的质量完全由业务系统把握。强调事实,即实际的东西。
维度表:可以看做是用户来分析数据的窗口
维度表就是你观察该事务的角度,是从哪个角度去观察这个内容的。
例:
某地区商品的销量,是从地区这个角度观察商品销量的。
事实表就是销量表,维度表就是地区表。
————————————————————————————————————————————————————————
星型模型
由一个或多个引用任意数量的维度表的事实表组成
优点:星型模型是非规范化的,这意味着应用于事务性关系数据库的常规规范化规则在星型模型设计和实现过程中被放宽
星型非规范化的好处是
1.更简单的查询
2.简化的业务报告逻辑
3.查询性能提升
4.快速聚合
5.所有OLAP系统都使用提供多维数据集
缺点:
1.数据完整性不能很好的实施
2.分析需求方面不想标准化数据模型那样灵活
3.不支持业务实体之间的多对多关系
————————————————————————————————————————————————————————
雪花模型
由连接到多个维度的集中式事实表组成
优点:
1.雪花模型与星型模型位于同一系列中。实际上星型模型被认为是雪花模型的特例。
2.在某些情况下,雪花模型比星型模型具有一些优势,包括
- 一些OLAP多维数据库建模工具正对雪花模型进行了优化
- 规范化属性可以节省存储空间,权衡是源查询连接中的额外复杂性
缺点:
1.与星型模型相比,附加级别的属性规范化会增加源查询连接的复杂性
2.与单平台尺寸相对,雪花图案受到了严厉的批评
3.不能保证数据的完整性
————————————————————————————————————————————————————————
注:为什么会节省存储空间?
规范化可以使结构更合理,消除存储异常,使数据冗余尽量小,便于插入、删除和更新。