现有测量值低于阈值。
②新数据集正在调查中。
③对现有数据集提出新的数据质量要求。
④业务规则、标准或期望变更。
第一次正确获取数据的成本,远比获取错误数据并修复数据的成本
要低。从一开始就将质量引入数据管理过程的成本,低于对其进行改造
的成本。在整个数据生命周期中维护高质量数据,比在现有流程中尝试
提高质量风险更小,且对组织的影响也要小得多。在建立流程或系统时
就确立数据质量标准是成熟的数据管理组织的标志之一。要做到这一
点,需要良好的治理和行为准则以及跨职能的协作。
.2 活动
13.2.1 定义高质量数据
许多人看到质量差的数据时都能辨识出,但是很少有人能够定义高
质量数据,或者他们用非常不严谨的术语定义它:“数据必须是正确
的”“我们需要准确的数据”。高质量的数据能满足数据消费者的需要。
在启动数据质量方案之前,有益的做法是了解业务需求、定义术语、识
别组织的痛点,并开始就数据质量改进的驱动因素和优先事项达成共
识。根据一组问题,可以了解当前状态,并评估组织对数据质量改进的
准备情况。
1)“高质量数据”是什么意思?
2)低质量数据对业务运营和战略的影响是什么?
3)更高质量的数据如何赋能业务战略?
4)数据质量改进需要哪些优先事项的推动?
5)对低质量数据的容忍度是多少?
6)为支持数据质量改进而实施的治理是什么?
7)配套实施的治理结构是什么?
要全面了解组织中数据质量的当前状态,需要从不同的角度来探讨
这个问题:
1)了解业务战略和目标。
2)与利益相关方面谈,以识别痛点、风险和业务驱动因素。
3)通过资料收集和其他剖析形式直接评估数据。
4)记录业务流程中的数据依赖关系。
5)记录业务流程的技术架构和系统支持。
上述评估过程可以揭示大量的机会,这需要根据对组织的潜在利益
进行优先排序。利用利益相关方(包括数据管理专员、业务和技术领域
专家)的输入,数据质量团队应定义数据质量的含义并提出项目优先
级。
.2.2 定义数据质量战略
提高数据质量要有一定的战略,应考虑到需要完成的工作以及人们
执行这些工作的方式。数据质量优先级必须与业务战略一致。采纳或开
发一个框架及方法论将有助于指导战略和开展战术,同时提供衡量进展
和影响的方法。一个框架应包括以下方法:
1)了解并优先考虑业务需求。
2)确定满足业务需求的关键数据。
3)根据业务需求定义业务规则和数据质量标准。
4)根据预期评估数据。
5)分享调查结果,并从利益相关方那里获得反馈。
6)优先处理和管理问题。
7)确定并优先考虑改进机会。
8)测量、监控和报告数据质量。
9)管理通过数据质量流程生成的元数据。
10)将数据质量控制集成到业务和技术流程中。
框架还应该考虑如何管理数据质量以及如何利用数据质量工具。如
引言一节所述,提高数据质量需要数据质量团队吸引业务和技术人员,
定义一个解决关键问题的工作计划和最佳实践,并制定支持数据质量持
续管理的操作流程。这样的团队通常是数据管理组织的一部分,数据质
量分析人员需要与各级数据管理专员密切合作,并对制度施加影响,包
括有关业务流程和系统开发的制度,即使这样的团队还是无法解决组织
面临的所有数据质量的挑战。数据质量工作和对高质量数据的承诺需要
嵌入组织实践。数据质量策略应该说明如何扩展最佳实践(参见第17
章)。