数据质量
2.关键数据
根据以下要求评估关键数据:
1)监管报告。
2)财务报告。
3)商业政策。
4)持续经营。
5)商业战略,尤其是差异化竞争战略。
2013年,DAMA UK发布了一份白皮书,描述了数据质量的6个核
心维度:
1)完备性。存储数据量与潜在数据量的百分比。
2)唯一性。在满足对象识别的基础上不应多次记录实体实例(事
物)。
3)及时性。数据从要求的时间点起代表现实的程度。
4)有效性。如数据符合其定义的语法(格式、类型、范围),则
数据有效。
5)准确性。数据正确描述所描述的“真实世界”对象或事件的程
度。
6)一致性。比较事物多种表述与定义的差异
ISO 8000第61部分“信息和数据质量管理过程参考模型”正在开发中
[12]。该标准描述数据质量管理的结构和组织,包括:
1)数据质量规划。
2)数据质量控制。
3)数据质量保证。
4)数据质量改进。
6.数据质量改进生命周期
大多数改进数据质量的方法都是基于物理产品制造过程中的质量改
进技术[13]。就此而言,数据被理解为一系列过程的产物。简单地说,
过程被定义为一系列将输入转化为输出的步骤。创建数据的过程可能由
一个步骤(数据收集)或多个步骤组成:数据收集、集成到数据仓库、
数据集市聚合等。在任何步骤中,数据都可能受到负面的影响,它可能
被错误地收集、在系统之间丢弃或重复收集、对齐或汇总不正确等。提
高数据质量需要能够评估输入和输出之间的关系,以确保输入满足过程
的要求,并且输出符合预期。由于一个流程的输出成为其他流程的输
入,因此必须沿着整个数据链定义需求。
数据质量改进的常用方法如图13-3所示,是戴明环的一个版本
[14]。基于科学的方法,戴明环是一个被称为“计划-执行-检查-处理”的
问题解决模型。改进是通过一组确定的步骤来实现的。必须根据标准测
量数据状况,如果数据状况不符合标准,则必须确定并纠正与标准不符
的根本原因。无论是技术性的,还是非技术性的,根本原因可能都会在
处理过程的某一步骤中找到。一旦纠正,应监控数据以确保其持续满足
要求。图13-3 休哈特图
对于给定的数据集,数据质量管理周期首先确定不符合数据消费者
要求的数据,以及阻碍其实现业务目标的数据问题。数据需要根据质量
的关键指标和已知的业务需求进行评估。需要确定问题的根本原因,以
便利益相关方能够了解补救的成本和不补救问题的风险。这项工作通常
由数据管理专员和其他利益相关方共同完成。
1)计划(
Plan)阶段。数据质量团队评估已知问题的范围、影响
和优先级,并评估解决这些问题的备选方案。这一阶段应该建立在分析
问题根源的坚实基础上,从问题产生的原因和影响的角度了解成本/效
益,确定优先顺序,并制订基本计划以解决这些问题。
2)执行(Do)阶段。数据质量团队负责努力解决引起问题的根本
原因,并做出对持续监控数据的计划。对于非技术流程类的根本原因,
数据质量团队可以与流程所有者一起实施更改。对于需要技术变更类的
根本原因,数据质量团队应与技术团队合作,以确保需求得到正确实
施,并且技术变更不会引发错误。
3)检查(Check)阶段。这一阶段包括积极监控按要求测量的数据质量。只要数据满足定义的质量阈值,就不需要采取其他行动,这个过
程将处于控制之中并能满足商业需求。如果数据低于可接受的质量阈
值,则必须采取额外措施使其达到可接受的水平。
4)处理(Act)阶段。这一阶段是指处理和解决新出现的数据质量
问题的活动。随着问题原因的评估和解决方案的提出,循环将重新开
始。通过启动一个新的周期来实现持续改进。新周期开始于:
①现有测量值低于阈值。
②新数据集正在调查中。
③对现有数据集提出新的数据质量要求。
④业务规则、标准或期望变更。
第一次正确获取数据的成本,远比获取错误数据并修复数据的成本
要低。从一开始就将质量引入数据管理过程的成本,低于对其进行改造
的成本。在整个数据生命周期中维护高质量数据,比在现有流程中尝试
提高质量风险更小,且对组织的影响也要小得多。在建立流程或系统时
就确立数据质量标准是成熟的数据管理组织的标志之一。要做到这一
点,需要良好的治理和行为准则以及跨职能的协作。
数据质量管理:核心维度与改进生命周期
文章阐述了数据质量的六个关键维度,包括完备性、唯一性、及时性、有效性、准确性和一致性,并介绍了DAMAUK的白皮书和ISO8000标准。数据质量改进遵循戴明环模型,涉及计划、执行、检查和处理四个阶段,强调了在整个数据生命周期中维护高质量数据的重要性。

被折叠的 条评论
为什么被折叠?



