对于给定的数据集,数据质量管理周期

对于给定的数据集,数据质量管理周期首先确定不符合数据消费者

要求的数据,以及阻碍其实现业务目标的数据问题。数据需要根据质量

的关键指标和已知的业务需求进行评估。需要确定问题的根本原因,以

便利益相关方能够了解补救的成本和不补救问题的风险。这项工作通常

由数据管理专员和其他利益相关方共同完成。

1)计划(

Plan)阶段。数据质量团队评估已知问题的范围、影响

和优先级,并评估解决这些问题的备选方案。这一阶段应该建立在分析

问题根源的坚实基础上,从问题产生的原因和影响的角度了解成本/效

益,确定优先顺序,并制订基本计划以解决这些问题。

2)执行(Do)阶段。数据质量团队负责努力解决引起问题的根本

原因,并做出对持续监控数据的计划。对于非技术流程类的根本原因,

数据质量团队可以与流程所有者一起实施更改。对于需要技术变更类的

根本原因,数据质量团队应与技术团队合作,以确保需求得到正确实

施,并且技术变更不会引发错误。

3)检查(Check)阶段。这一阶段包括积极监控按要求测量的数据质量。只要数据满足定义的质量阈值,就不需要采取其他行动,这个过

程将处于控制之中并能满足商业需求。如果数据低于可接受的质量阈

值,则必须采取额外措施使其达到可接受的水平。

4)处理(Act)阶段。这一阶段是指处理和解决新出现的数据质量

问题的活动。随着问题原因的评估和解决方案的提出,循环将重新开

始。通过启动一个新的周期来实现持续改进。新周期开始于:

①现有测量值低于阈值。

②新数据集正在调查中。

③对现有数据集提出新的数据质量要求。

④业务规则、标准或期望变更。

第一次正确获取数据的成本,远比获取错误数据并修复数据的成本

要低。从一开始就将质量引入数据管理过程的成本,低于对其进行改造

的成本。在整个数据生命周期中维护高质量数据,比在现有流程中尝试

提高质量风险更小,且对组织的影响也要小得多。在建立流程或系统时

就确立数据质量标准是成熟的数据管理组织的标志之一。要做到这一

点,需要良好的治理和行为准则以及跨职能的协作。

7.数据质量业务规则类型

业务规则描述业务应该如何在内部运行,以便成功地与外部世界保

持一致。数据质量业务规则描述了组织内有用数据和可用数据的存在形

式。这些规则需要符合质量维度要求,并用于描述数据质量要求。例

如,所有州代码字段必须符合美国州缩写的业务规则,数据输入可以通

过选取列表和数据集成查找强制执行。之后,测量有效或无效记录的数

量。

业务规则通常在软件中实现,或者使用文档模板输入数据。一些简

单常见的业务规则类型有:

1)定义一致性。确认对数据定义的理解相同,并在整个组织过程

中得到实现和正确使用;确认包括对计算字段内任意时间或包含局部约

束的算法协议,以及汇总和状态相互依赖规则。

2)数值存在和记录完备性。定义数值缺失的情况是否可接受的规

则。3)格式符合性。按指定模式分配给数据元素的值,如设置电话号

码格式的标准。

4)值域匹配性。指定数据元素的赋值须包含在某数据值域的枚举

值中,如州字段的合理取值为2个字符的美国邮政编码。

5)范围一致性。数据元素赋值必须在定义的数字、词典或时间范

围内,如数字范围大于0、小于100。

6)映射一致性。表示分配给数据元素的值,必须对应于映射到其

他等效对应值域中的选择的值。这个“州”数据域再次提供了一个很好的

例子,州的值可以用不同的值域(USPS邮政编码、FIPS联邦信息处理

标准2位代码、全名)表示,并且这些类型的规则验证“AL”和“01”都映

射到“亚拉巴马州”。

7)一致性规则。指根据这些属性的实际值,在两个(或多个)属

性之间关系的条件判定。例如,通过对应于特定州或省的邮政编码进行

地址验证。

8)准确性验证。将数据值与记录系统或其他验证来源(如从供应

商处购买的营销数据)中的相应值进行比较,以验证值是否匹配。

9)唯一性验证。指定哪些实体必须具有唯一表达,以及每个表达

的真实世界对象有且仅有一个记录的规则。

10)及时性验证。表明与数据可访问性和可用性预期相关特征的规

则。

其他类型的规则可能涉及应用于数据实例集合的聚合函数(参见

13.4.5节)。聚合检查的示例包括:

1)验证文件中记录数量的合理性。这需要基于一段时间内的统计

量,以得到趋势信息。

2)验证从一组交易中计算出的平均金额的合理性。这需要建立比

较阈值,并基于一段时间内的统计数据。

3)验证指定时间段内交易数量的预期差异。这需要基于一段时间

内的统计数据,并通过它们来建立阈值。

8.数据质量问题的常见原因

从创建到处置,数据质量问题在数据生命周期的任何节点都可能出现。在调查根本原因时,分析师应该寻找潜在的原因,如数据输入、数

据处理、系统设计,以及自动化流程中的手动干预问题。许多问题都有

多种原因和促成因素(尤其是那些人们已经针对其创造了解决方法的问

题)。这些问题的原因也暗示了防止问题的方法:通过改进接口设计,

将测试数据质量规则作为处理的一部分,关注系统设计中的数据质量,

并严格控制自动化过程中的人工干预。

1)缺乏领导力导致的问题

许多人认为大多数数据质量问题是由数据输入错误引起的。更深入

理解后发现,业务和技术流程中的差距或执行不当会导致比错误输入更

多的问题。然而,常识和研究表明,许多数据质量问题是由缺乏对高质

量数据的组织承诺造成的,而缺乏组织承诺本身就是在治理和管理的形

式上缺乏领导力。

每个组织都有对运营有价值的信息和数据资产。事实上,每个组织

的运作依赖于它共享信息的能力。尽管如此,很少有组织能够严格管理

这些资产。在大多数组织中,数据差异(数据结构、格式和使用值的差

异)是一个比简单错误严重的问题,可能是数据集成的主要障碍。数据

管理制度专注于定义术语和合并数据周边的语言,这是组织获得更一致

数据的起点。

许多数据治理和信息资产项目仅由合规性驱动,而不是由作为数据

资产衍生的潜在价值驱动。领导层缺乏认可意味着组织内部缺乏将数据

作为资产并进行质量管理的承诺(Evans和Price,2012),如图13-4所

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

手把手教你学AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值