- 第二章:数据仓库环境
a. 定义
i. 数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用来支持管理人员决策的数据集合。
ii. 数据仓库包含粒度化的企业数据。
iii. 扩充数据仓库使其包含“高速缓冲”或者“溢出”区域,通常称之为近线存储。里面的数据仅仅是数据仓库中的数据的扩充。
b. 数据仓库的结构
i.
c. 面向主题
i. 典型的主题域:顾客、产品、交易或者活动、政策等
d. 建立数据仓库的开发方法
i. 螺旋式,先开发一部分,再进化式开发另一部分
e. 粒度
i. 粒度指的是数据仓库中的数据单元的细节程度或综合程度的级别
ii. 细节程度越高,粒度级越低
iii. 双重粒度级
iv. 处理粒度问题
1) 建立一个服务于不同类型查询与分析的双重力度的多层数据仓库
2) 建立活样本数据库
f. 分区
i. 分区使得数据可以在小的分区的离散单元中进行管理,使得数据仓库中的数据装载变得简单,建立索引也更流畅,数据归档也更容易
ii. 分区设计方法:
1) 在DBMS/操作系统层
2) 在应用层
g. 数据仓库中的数据组织
i. 简单堆积
1) 图
ii. 轮转综合
1)
iii. 简单直接
1)
iv. 连续
1)
h. 审计与数据仓库
i. 在数据仓库中进行审计是可能的,但是审计带来的复杂性使得在其他地方更有意义
i. 数据仓库的同构/异构
i. 数据仓库中的数据按照下列标准划分:
1) 主题域
2) 表
3) 数据在表中的实现
j. 数据清理
i. 几种方式
1) 数据加入到失去原有细节的一个轮转综合文件上
2) 数据从高性能的介质转移到大容量介质上
3) 数据从系统真正被清除
4) 数据从体系结构的一个层次转移到另一个层次,比如操作层转移到数据仓库层
k. 报表与体系结构化环境
l. 档案数据的时间范围称为数据的操作窗口
m. 错误处理
i. 三种方式
1) 直接从源数据修改
a) 缺点:
i) 数据集成被破坏
ii) 更新必须在数据仓库环境中进行
iii) 可能要修正很多条目
2) 加入修正条目
a) 缺点
i) 可能要修正很多条目
ii) 修正公式可能非常复杂以致无法修正
3) 重新设置修正日期为正确数据且不考虑以前的活动
a) 缺点
i) 及时简单的约定
ii) 不能对过去的错误进行解释