数据仓库元数据全解析
1. 元数据的重要性
在数据仓库的世界里,元数据扮演着至关重要的角色。它主要有以下几个重要作用:
- 描述与解释数据 :元数据能够向用户详细描述和解释数据以及数据仓库的结构与流程。这使得用户可以更好地使用数据仓库,同时也便于对其进行增强和维护。例如,数据定义元数据能帮助新用户理解每个事实和维度属性的含义及其示例值,还能避免现有用户对某些列的含义产生误解。
- 审计用途 :用于了解事件发生的情况、地点和时间。当ETL过程意外停止时,审计元数据能帮助我们明确哪些步骤已执行、执行结果如何以及哪些步骤未执行,从而精准定位ETL过程中的故障点,便于找出故障原因,并使ETL过程下次运行时能从故障点恢复。
- 支持系统操作任务 :系统利用元数据来执行操作任务,如当数据质量规则检测到“坏数据”时确定所需采取的行动,以及确定ETL任务的执行顺序。
为了便于维护,元数据数据库采用规范化形式,即表名和列名存储在数据结构元数据中。数据定义、数据映射、ETL元数据和审计元数据通过存储表键和列键来引用数据结构元数据。这样,当需要修改元数据数据库中的某些内容时,只需在一处进行修改即可。
2. 数据定义与映射元数据
数据定义元数据是DDS、ODS和NDS(具体取决于所选架构)中每个表的所有列的列表,包含其含义和示例值。它使用数据结构元数据中定义的表键和列键,而非直接提及数据存储名称、表名和列名。
映射元数据描述了每个数据片段在源系统中的来源,也被称为数据沿袭元数据。如果映射元数据仅包含源系统列名,可与数据
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



