)历史的。业务系统的重心是当前的数据。数据仓库还包括历史
数据,通常要消耗很大的存储空间。
Inmon
、
Claudia Imhoff
和
Ryan Sousa
等是在
CIF
的语境下描述数据仓
库的,如图
11-2
所示。
CIF
的组成部分包括:
1
)应用程序。应用程序处理业务流程。应用程序产生的明细数据
流转到数据仓库和操作型数据存储中,继而用作分析。
2
)数据暂存区。介于业务系统源数据库和目标数据仓库之间的一
个数据库。暂存区是用于数据抽取、转换和加载的地方,对最终用户透
明。暂存区中的大部分数据是短时留存的,通常只有相当少的一部分数
据是持久性数据。
3
)集成和转换。在集成层,来自不同数据源的数据被转换整合为
数仓和
ODS
里的标准企业模型。
4
)操作型数据存储(
ODS
)。操作型数据存储是业务数据的集成
数据库。数据可能直接来源于应用系统,也可能来自其他数据库。操作
型数据存储中通常包括当前的或近期的(
30
~
90
天)数据,而数据仓库
还包含历史(通常是很多年的)数据。操作型数据存储的数据变化较
快,而数据仓库的数据相对稳定。不是所有的组织都会建设操作型数据
存储,操作型数据存储的存在满足了企业对低延迟数据的需求。操作型
数据存储可以作为数据仓库的主要来源,还可用于对数据仓库做审计。
5
)数据集市。数据集市为后续的数据分析提供数据。这里说的数
据通常是数据仓库的子集,用于支持特定分析或特定种类的消费者。例
如,数据集市可以聚合数据,以支持更快的分析。多维模型(用反范式
的技术)通常针对面向用户类型的数据集市。
6
)操作型数据集市(
OpDM
)。操作型数据集市是专注于运营决
策支持的数据集市。它直接从操作型数据存储而不是从数据仓库获取数
据,具有与操作型数据存储相同的特性:包含当前或近期的数据,这些
数据是经常变化的。
7
)数据仓库。数据仓库为企业数据提供了一个统一的整合入口,
以支持管理决策、战略分析和规划。数据从应用程序系统和操作型数据
存储流入数据仓库,然后流到数据集市,这种流动通常只是单向的。需
要更正的(不符合要求的)数据将被拒绝进入,理想情况是在其源头系
统完成更正,然后通过
ETL
流程系统重新加载。
8
)运营报告。运营报告从数据存储中输出。
9
)参考数据、主数据和外部数据。除了来自应用程序的交易数
据,企业信息工厂还包括理解交易所需的数据,如参考数据和主数据。
对通用数据的访问简化集成在数据仓库中。当应用程序使用当前的参考
数据和主数据时,数据仓库还需要它们的历史值及其有效的时间范围
(参见第
10
章)。
图
11-2
描绘了企业信息工厂内的数据流动,从通过应用程序进行数
据的收集和创建(左侧),到通过集市进行信息创建和分析(右侧),
在从左到右的数据流动过程中还包括其他一些更改。例如:
图
11-2
企业信息工厂(
CIF
)
1
)目标从业务功能的执行转向数据分析。
2
)系统最终用户从一线业务人员变成企业决策者。
3
)系统使用从固定操作转向即席查询。
4
)响应时间的要求不再重要(战略决策分析比例行操作需要花更
多的时间)。
5
)每个操作、查询或流程涉及更多数据。
数据仓库和数据集市的数据与应用程序中的数据不同: