在阿看来,元数据是保障从各业务系统间数据整合工作顺利完成的重要手段和依据,是保证数据质量的关键,有效的元数据管理可以将不断变化的需求平滑地反映到数据仓库里来。在一个数据仓库项目中,保证元数据的统一、有效和规范的管理是整个项目成功的关键所在。
那么数据仓库过程不同阶段中的元数据到底该如何进行有效管理,其管理方式和途径都有哪些呢?在数据仓库过程的不同阶段(如需求分析阶段、模型建立阶段、ETL阶段、数据挖掘和前端展现阶段),其存在形式或者管理的侧重点又有什么不同?
元数据的管理应当是数据仓库过程中要全程关注的焦点和核心;总感觉实际的项目中,虽然设计者在起初也会指出这一环节的重要性,不过真正的开发和实施者好像对这一核心环节并未没有形成清醒的认识,或者说没有科学的办法和工具来进行管理,只是以一些文件的形式对元数据进行记录,或许这也是数据仓库在中国处于初级阶段的一个表现吧?
ETL工具里面是自带的有元数据管理工具或者说一套办法,像一些工具里提供的repository就是便于ETL过程中元数据的管理的;不过在一个数据仓库项目里这部分只是一个阶段的元数据管理,并且也仅适用于这个阶段,事实情况是元数据时常要被应用在整个项目的每个阶段,所以,我们思考的重点就是怎样把整个过程中每个阶段的元数据加以集中存储并有效管理?如果好的工具或者解决办法的话,才能便于用户理解和接受元数据,从而让用户接受承认数据仓库里数据质量的可靠,才会更快速地响应用户不断变化的需求,同时也便于项目的整体维护。
上面这段文章是几个月前阿对DW有了个比较清醒全面的认识,并且实际参与了一个DW的建设后引发的思考,原文是发帖到了dwway和cnoug的论坛上,本想抛砖引玉,让众多有DW项目实施经验的哥们儿谈谈自己的感想和看法,岂料反响甚微,大失所望~
下面是一位参与讨论的朋友提出了他的一些观点和看法,感觉挺有质量,也原本摘录上来:
socket整理的元数据在数据仓库领域内的用途或功能:
1)描述哪些数据存放在数据仓库中
2)定义数据抽取和转换,涉及到对操作型环境和数据仓库环境之间的映射的管理。
3)描述数据同步需求
4)记录数据仓库中的数据结构发生的变化。
5)衡量数据质量
6)数据仓库通过元数据来实现对外部数据的注册、访问和管理。
6)与元数据有关的另一种数据类型是“通知”数据
那么数据仓库过程不同阶段中的元数据到底该如何进行有效管理,其管理方式和途径都有哪些呢?在数据仓库过程的不同阶段(如需求分析阶段、模型建立阶段、ETL阶段、数据挖掘和前端展现阶段),其存在形式或者管理的侧重点又有什么不同?
元数据的管理应当是数据仓库过程中要全程关注的焦点和核心;总感觉实际的项目中,虽然设计者在起初也会指出这一环节的重要性,不过真正的开发和实施者好像对这一核心环节并未没有形成清醒的认识,或者说没有科学的办法和工具来进行管理,只是以一些文件的形式对元数据进行记录,或许这也是数据仓库在中国处于初级阶段的一个表现吧?
ETL工具里面是自带的有元数据管理工具或者说一套办法,像一些工具里提供的repository就是便于ETL过程中元数据的管理的;不过在一个数据仓库项目里这部分只是一个阶段的元数据管理,并且也仅适用于这个阶段,事实情况是元数据时常要被应用在整个项目的每个阶段,所以,我们思考的重点就是怎样把整个过程中每个阶段的元数据加以集中存储并有效管理?如果好的工具或者解决办法的话,才能便于用户理解和接受元数据,从而让用户接受承认数据仓库里数据质量的可靠,才会更快速地响应用户不断变化的需求,同时也便于项目的整体维护。
上面这段文章是几个月前阿对DW有了个比较清醒全面的认识,并且实际参与了一个DW的建设后引发的思考,原文是发帖到了dwway和cnoug的论坛上,本想抛砖引玉,让众多有DW项目实施经验的哥们儿谈谈自己的感想和看法,岂料反响甚微,大失所望~
下面是一位参与讨论的朋友提出了他的一些观点和看法,感觉挺有质量,也原本摘录上来:
socket整理的元数据在数据仓库领域内的用途或功能:
1)描述哪些数据存放在数据仓库中
2)定义数据抽取和转换,涉及到对操作型环境和数据仓库环境之间的映射的管理。
3)描述数据同步需求
4)记录数据仓库中的数据结构发生的变化。
5)衡量数据质量
6)数据仓库通过元数据来实现对外部数据的注册、访问和管理。
6)与元数据有关的另一种数据类型是“通知”数据