第13章 数据质量
13.1 引言
有效的数据管理涉及一系列复杂的、相互关联的过程,它使组织能
够利用他们的数据来实现其战略目标。数据管理能力包括为各类应用设
计数据模型、安全存储和访问数据、适当地共享数据、从数据中获得知
识,以及保障满足业务需求的能力等。但实现数据价值的前提是数据本
身是可靠和可信的,换句话说,数据应是高质量的。
然而,诸多因素都在破坏这一前提。导致低质量数据产生的因素包
括:组织缺乏对低质量数据影响的理解、缺乏规划、孤岛式系统设计、
不一致的开发过程、不完整的文档、缺乏标准或缺乏治理等。而很多组
织都未能清楚定义该怎么做才能让数据满足目标。
所有数据管理的原则都应有助于提高数据质量,支持组织使用高质
量数据应是所有数据管理原则的目标。数据交互过程中任何人的糟糕决
策或行动,都可能导致数据质量变差,因此产生高质量数据需要跨职能
的承诺和协调。组织和团队要意识到这一点,通过执行过程和项目管
理,提前为高质量的数据做好准备,以应对与数据相关的意外或不可接
受的风险。
没有一个组织拥有完美的业务流程、完美的技术流程或完美的数据
管理实践,所有组织都会遇到与数据质量相关的问题。相比那些不开展
数据质量管理的组织,实施正式数据质量管理的组织碰到的问题会更
少。
正式的数据质量管理类似于其他产品领域的持续质量管理,包括在
整个生命周期制定标准,在数据创建、转换和存储过程中完善质量,以
及根据标准度量数据来管理数据。将数据管理到这样的水平通常需要有
数据质量团队(Data Quality Program Team)。数据质量团队负责与业
务和技术数据管理专业人员协作,并推动将质量管理技能应用于数据工
作,以确保数据适用于各种需求。该团队可能会参与一系列项目,通过
这些项目建立流程和最佳实践,同时解决高优先级的数据问题。由于管理数据质量涉及数据生命周期管理,因此数据质量团队还将
承担与数据使用相关的操作责任。例如,报告数据质量水平,参与数据
问题的分析、问题的量化和优先级排序。团队还负责与那些需要数据开
展工作的人合作,以确保数据满足他们的需求,并与那些在工作过程中
创建、更新或删除数据的人合作,以确保他们正确地处理数据。数据质
量取决于所有与数据交互的人,而不仅仅是数据管理专业人员。
与数据治理和整体数据管理一样,数据质量管理不是一个项目,而
是一项持续性工作。它包括项目和维护工作,以及承诺进行沟通和培
训。最重要的是,数据质量改进取得长期成功取决于组织文化的改变及
质量观念的建立。正如《领导者数据宣言》(
The
Leader's
Data
Manifesto)一书中所述:持续性的根本变革需要组织内各级人员的坚定
领导和参与。使用数据完成工作的人——在大多数组织中,这一比例非
常高——需要去推动变革,而最关键的变革之一是关注他们的组织如何
管理和提高数据质量[1]。
数据质量语境关系图如图13-1所示。图13-1 语境关系图:数据质量
13.1.1 业务驱动因素
建立正式数据质量管理的业务驱动因素包括:
1)提高组织数据价值和数据利用的机会。
2)降低低质量数据导致的风险和成本。
3)提高组织效率和生产力。
4)保护和提高组织的声誉