定义元数据
元数据管理系统必须具有从不同数据源采集元数据的能力,设计架
构时应确保可以扫描不同元数据源和定期地更新元数据存储库,系统必
须支持手工更新元数据、请求元数据、查询元数据和被不同用户组查
询。
受控的元数据环境应为最终用户屏蔽元数据的多样性和差异性。元
数据架构应为用户访问元数据存储库提供统一的入口,该入口必须向用
户透明地提供所有相关元数据资源,这意味着用户可以在不关注数据源
的差异的情况下访问元数据。在数据分析和大数据解决方案中,接口可
能包含大量用户自定义函数(UDF)以利用多个数据集,此时对这些定
制元数据向最终用户公开元数据是不透明的方式。方案中减少对UDF的
依赖,最终用户将更加直接地收集、检查和使用数据集,此时许多支持的元数据通常可以更好地公开。
组织根据具体的需求设计元数据架构。与设计数据仓库相似,建立
公共元数据存储库通常有三种技术架构方法:集中式、分布式和混合式
(参见12.1.3节)。这些方法都考虑了存储库的实现以及更新机制的操
作方式。
架构