1.整合元数据
集成过程中从整个企业范围内收集和整合元数据,包括从企业外部
获取的数据中的元数据。元数据存储库应将提取的技术元数据与相关的
业务、流程和管理元数据集成在一起,可以使用适配器、扫描仪、网桥应用程序或直接访问源数据存储中的方式来提取元数据。第三方厂商的
软件工具和元数据整合工具都提供采集适配器程序。在某些情况下,需
要通过API来开发适配器。
元数据整合过程中可能存在一些挑战,也可能需要诉诸数据治理流
程进行协调解决,例如,在对内部数据集、外部数据(如政府统计数
据)、非电子形式数据(如白皮书、杂志文章或报表)进行整合时,可
能会出现大量的质量和语义方面的问题。
对元数据存储库的扫描有两种不同的方式:
1)专用接口。采用单步方式,扫描程序从来源系统中采集元数
据,直接调用特定格式的装载程序,将元数据加载到元数据存储中。在
此过程中,不需要输出任何中间元数据文件,元数据的采集和装载也是
一步完成的。
2)半专用接口。采用两步方式,扫描程序从来源系统中采集元数
据,并输出到特定格式的数据文件中。扫描程序只产生目标存储库能够
正确读取和加载的数据文件。数据文件可以被多种方式读取,所以这种
接口的架构更加开放。
在此过程中,扫描程序产生和使用多种类型文件:
1)控制文件。包含数据模型的数据源结构信息。
2)重用文件。包含管理装载流程的重用规则信息。
3)日志文件。在流程的每一阶段、每次扫描或抽取操作生成的日
志。
4)临时和备份文件。在流程中使用或做追溯流程所使用的文件。
可以使用一个非持久的元数据暂存区进行临时和备份文件的存储,
暂存区应支持回滚和恢复处理,并提供临时审计跟踪信息,这样有助于
存储库管理员追踪元数据来源或质量问题。暂存区可以采用文件目录或
数据库的形式。
数据仓库和商务智能所使用的数据整合工具通常也适用于元数据整
合(参