8. 监视器
- 任务
- 发现一个数据来源中的数据操纵。
- 策略
- 基于触发器
- 活跃的数据库机制
- 当数据更改时触发触发器;
- 复制更改的元组至其他的区域;
- 基于复制/重复
- 使用复制机制来传递更改过的数据;
- 基于日志
- 分析DBMS中的事务日志文件以识别更改;
- 基于时间戳
- 为元组分配时间戳;
- 更改时更新;
- 通过时间对比验证自从上次提取的所有更改;
- 基于快照
- 数据库定期复制到文件中(快照);
- 对比快照以验证更改;
9. 数据清洗区域
- 任务
- 数据采集区域的核心数据存储组件(暂存区);
- 用于集成的临时缓存;
- 使用
- 直接在缓存上执行转换(清洗,集成等等);
- 只有在转换成功结束之后才将转换过的数据加载到数据仓库或者基本数据库;
- 优势
- 对来源或者数据仓库没有影响;
- 不接收错误/有误差的数据;
10. 提取组件
- 任务
- 将源中的数据传递到数据采集区域;
- 功能:取决于监视策略
- 周期性的;
- 备查;
- 事件驱动 / 控制(比如:达到了预先定义的更改数量);
- 立即提取;
- 实现
- 使用标准借口(比如,ODBC,JDBC);
- 发生错误时进行异常处理以继续;
11. 转换组件
- 准备和调整数据以加载
- 内容:数据/实例集成和清洗;
- 结构:模式集成。
- 以统一的格式传递所有数据
- 数据类型;
- 日期;
- 计量单位;
- 编码 等。
- 消除杂质(数据清理)
- 错误值或者缺省值;
- 冗余;
- 过时值。
- 数据清洗
- 使用特定域的知识(比如:业务规则)以识别杂质;
- 比如:识别冗余。
- 数据审计/审查
- 使用数据挖掘方法以阐明规则;
- 发现误差/偏差。
12. 加载组件
- 任务
- 加载清洗和整理过的数据至基础数据库或者数据仓库。
- 特点
- 使用特定的加载工具(比如,Oracle的SQL* Loader)→ 批量加载;
- 历史化:更改源不允许覆写数据仓库,取而代之的是额外存储。
- 加载过程
- 在线:进一步利用基本数据库或者数据仓库;
- 离线: 不可用(时间空挡:午夜,周末)。
13. 基本数据库
- 任务
- 用于不同分析的集成的数据库 → 独立于具体的分析,意味着还没有聚合;
- 向数据仓库提供清洗过的数据(可能通过压缩)。
- 附注
- 经常在实践中省略;
- 对应于Inmon的操作型数据存储(ODS)。
14. 数据立方体
- 任务
- 用于分析目的的数据库(关系或者多维度);
- 在结构中面向分析需求;
- 基础:DBMS;
- 特点
- 支持加载过程
- 大数据量的快速加载 → 绕过多用户协调和一致性检测的批量加载;
- 支持分析过程
- 有效的查询处理(索引结构,缓存);
- 多维度数据模型(比如:关于OLE DB for OLAP)。
15. 数据仓库
狭义上讲,基础数据库和数据立方体表示数据仓库。
广义上讲,数据集市也表示数据仓库的组件。
16. 数据集市
- 任务
- 提供一个数据仓库的内容有限的视图。
- 基础/根本/原因
- 独立、保护数据、负载均衡、数据量等。
- 实现
- 分配数据仓库数据。
- 格式
- 依赖型数据集市
- 独立型数据集市
17. 依赖型数据集市
- 在 之后分配数据库
- 集成和清洗(基础数据库)
- 组织对应的分析需求(数据立方体)
- ”轮辐“架构 (hub and spoke)
- 数据集市
- 只提取(也包括集成)数据仓库
- 不清洗或者标准化/泛化
- 数据集市的分析于数据仓库的分析一致
- 简单实现
- DBMS的复制机制或者视图机制
18. ”轮辐“架构

19. 依赖型数据集市:提取构成
- 结构提取
- 部分模式的限制
- 比如:只有某些特征值或者维度
- 内容提取
- 内容限制
- 比如:只有某些分店或者去年净利润
- 聚合提取
- 减少/降低粒度
- 比如:月净利润的限制