面向质量的数据仓库使用与演进
数据仓库作为决策支持信息系统,必须提供高水平的数据质量和服务质量。本文将围绕数据仓库的架构、质量模型以及相关管理方法展开探讨。
1. 数据仓库架构概述
数据仓库(DW)架构可视为多层物化视图的叠加,各层数据由下一层衍生而来。其架构主要包含以下层次:
- 数据源层 :即运营数据库,是架构的最底层,数据形式多样,可能是存储在开放数据库系统和遗留系统中的结构化数据,或存储在文件中的非结构化、半结构化数据。
- 全局(主)数据仓库层 :处于架构核心,记录数据源中详细数据经过转换、集成和聚合后的历史数据。
- 操作数据存储(ODS)层 :用于集成各数据源的数据,具有易失性和低粒度特点,同时作为数据转换和清理的缓冲区,确保数据仓库填充的是干净、统一的数据。
- 本地(客户端)仓库层 :包含高度聚合的数据,直接源自全局仓库,如数据集市或 OLAP 数据库,可采用关系数据库系统或特定的多维数据结构。
所有数据仓库组件、流程和数据都应由元数据仓库进行跟踪和管理,它对数据仓库的管理员和设计者至关重要。数据仓库系统复杂,数据量庞大,数据提取、转换、清理、存储和聚合等流程繁多且随时间变化,元数据仓库就像路线图,记录所有设计选择和架构及组件的变更历史。例如,微软仓库的新版本和元数据交换规范(MDIS)为 OLAP 数据库提供了不同的模型和应用程序编程接口来控制和管理元数据。
数据仓库作为决策支持信息系统,需满足用户对数据质量和服务质量的要求,如连贯性、新鲜度、准确性、
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



