数据仓库与数据集市:企业数据处理的核心组件
1. 数据仓库的数据流入与流出
数据仓库是企业数据和决策支持系统(DSS)处理的核心。通常只有数据仓库管理员(DWA)会参与到构成流入数据仓库的集成与转换(I & T)层程序的规范制定和创建,其他组织实体很少参与。
数据流向数据集市是因为部门为了自身独特的 DSS 处理需求而进行了数据选择。数据集市接口具有定制化、非规范化和汇总的特点。部门按需从数据仓库中选择数据,通常不需要数据仓库中冗长的详细历史数据,而是希望对数据进行定制。定制化的程度受业务用途和所选 DSS 工具的影响,常见的定制化操作包括:
- 重构键
- 重新排序数据
- 合并文件
- 聚合数据(创建企业档案)
- 非规范化数据
与其他接口相比,企业内部网络中这部分的数据流量实际上非常小。不同的数据集市有不同的端口,各部门的数据移动频率严格基于自身需求。一般来说,部门负责构建和管理控制数据从数据仓库流向数据集市的程序,只有在特殊情况下才需要 DWA 程序员来创建和管理这些程序,但部门可能会向 DWA 寻求从数据仓库提取数据的建议。
数据还会在数据仓库和企业信息工厂的替代存储组件之间定期传递。当对数据仓库进行查询,而所需数据存于替代存储时,数据会被提取并传回数据仓库;当数据在数据仓库中处于休眠状态时,会被移回替代存储组件。在替代存储和数据仓库之间移动的数据量可能相当大,流入数据仓库的数据通常很“紧急”,因为有查询在等待;而移向近线存储的数据则很“慵懒”,因为它已经休眠了很长时间。对数据仓库的查询越可预测,在数据仓库和替代存储之间传递的数据就越少;不可预测的查询则需要更多的数据传递。因此,探索性仓库应运而生,它
超级会员免费看
订阅专栏 解锁全文
7

被折叠的 条评论
为什么被折叠?



