对于给定的数据集,数据质量管理周期首先确定不符合数据消费者
要求的数据,以及阻碍其实现业务目标的数据问题。数据需要根据质量
的关键指标和已知的业务需求进行评估。需要确定问题的根本原因,以
便利益相关方能够了解补救的成本和不补救问题的风险。这项工作通常
由数据管理专员和其他利益相关方共同完成。
1)计划(
Plan)阶段。数据质量团队评估已知问题的范围、影响
和优先级,并评估解决这些问题的备选方案。这一阶段应该建立在分析
问题根源的坚实基础上,从问题产生的原因和影响的角度了解成本/效
益,确定优先顺序,并制订基本计划以解决这些问题。
2)执行(Do)阶段。数据质量团队负责努力解决引起问题的根本
原因,并做出对持续监控数据的计划。对于非技术流程类的根本原因,
数据质量团队可以与流程所有者一起实施更改。对于需要技术变更类的
根本原因,数据质量团队应与技术团队合作,以确保需求得到正确实
施,并且技术变更不会引发错误。
3)检查(Check)阶段。这一阶段包括积极监控按要求测量的数据质量。只要数据满足定义的质量阈值,就不需要采取其他行动,这个过
程将处于控制之中并能满足商业需求。如果数据低于可接受的质量阈
值,则必须采取额外措施使其达到可接受的水平。
4)处理(Act)阶段。这一阶段是指处理和解决新出现的数据质量
问题的活动。随着问题原因的评估和解决方案的提出,循环将重新开
始。通过启动一个新的周期来实现持续改进。新周期开始于:
①现有测量值低于阈值。
②新数据集正在调查中。
③对现有数据集提出新的数据质量要求。
④业务规则、标准或期望变更。
第一次正确获取数据的成本,远比获取错误数据并修复数据的成本
要低。从一开始就将质量引入数据管理过程的成本,低于对其进行改造
的成本。在整个数据生命周期中维护高质量数据,比在现有流程中尝试
提高质量风险更小,且对组织的影响也要小得多。在建立流程或系统时
就确立数据质量标准是成熟的数据管理组织的标志之一。要做到这一
点,需要良好的治理和行为准则以及跨职能的协作。
7.数据质量业务规则类型
业务规则描述业务应该如何在内部运行,以便成功地与外部世界保
持一致。数据质量业务规则描述了组织内有用数据和可用数据的存在形
式。这些规则需要符合质量维度要求,并用于描述数据质量要求。例
如,所有州代码字段必须符合美国州缩写的业务规则,数据输入可以通
过选取列表和数据集成查找强制执行。之后,测量有效或无效记录的数
量。
业务规则通常在软件中实现,或者使用文档模板输入数据。一些简
单常见的业务规则类型有:
1)定义一致性。确认对数据定义的理解相同,并在整个组织过程
中得到实现和正确使用;确认包括对计算字段内任意时间或包含局部约
束的算法协议,以及汇总和状态相互依赖规则。
2)数值存在和记录完备性。定义数值缺失的情况是否可接受的规
则。3)格式符合性。按指定模式分配给数据元素的值,如设置电话号
码格式的标准。
4)值域匹配性。指定数据元素的赋值须包含在某数据值域的枚举
值中,如州字段的合理取值为2个字符的美国邮政编码。
5)范围一致性。数据元素赋值必须在定义的数字、词典或时间范
围内,如数字范围大于0、小于100。
6)映射一致性。表示分配给数据元素的值,必须对应于映射到其
他等效对应值域中的选择的值。这个“州”数据域再次提供了一个很好的
例子,州的值可以用不同的值域(USPS邮政编码、FIPS联邦信息处理
标准2位代码、全名)表示,并且这些类型的规则验证“AL”和“01”都映
射到“亚拉巴马州”。
7)一致性规则。指根据这些属性的实际值,在两个(或多个)属
性之间关系的条件判定。例如,通过对应于特定州或省的邮政编码进行
地址验证。
8)准确性验证。将数据值与记录系统或其他验证来源(如从供应
商处购买的营销数据)中的相应值进行比较,以验证值是否匹配。
9)唯一性验证。指定哪些实体必须具有唯一表达,以及每个表达
的真实世界对象有且仅有一个记录的规则。
10)及时性验证。表明与数据可访问性和可用性预期相关特征的规
则。
其他类型的规则可能涉及应用于数据实例集合的聚合函数(参见
13.4.5节)。聚合检查的示例包括:
1)验证文件中记录数量的合理性。这需要基于一段时间内的统计
量,以得到趋势信息。
2)验证从一组交易中计算出的平均金额的合理性。这需要建立比
较阈值,并基于一段时间内的统计数据。
3)验证指定时间段内交易数量的预期差异。这需要基于一段时间
内的统计数据,并通过它们来建立阈值。
8.数据质量问题的常见原因
从创建到处置,数据质量问题在数据生命周期的任何节点都可能出现。在调查根本原因时,分析师应该寻找潜在的原因,如数据输入、数
据处理、系统设计,以及自动化流程中的手动干预问题。许多问题都有
多种原因和促成因素(尤其是那些人们已经针对其创造了解决方法的问
题)。这些问题的原因也暗示了防止问题的方法:通过改进接口设计,
将测试数据质量规则作为处理的一部分,关注系统设计中的数据质量,
并严格控制自动化过程中的人工干预。
(
1)缺乏领导力导致的问题
许多人认为大多数数据质量问题是由数据输入错误引起的。更深入
理解后发现,业务和技术流程中的差距或执行不当会导致比错误输入更
多的问题。然而,常识和研究表明,许多数据质量问题是由缺乏对高质
量数据的组织承诺造成的,而缺乏组织承诺本身就是在治理和管理的形
式上缺乏领导力。
每个组织都有对运营有价值的信息和数据资产。事实上,每个组织
的运作依赖于它共享信息的能力。尽管如此,很少有组织能够严格管理
这些资产。在大多数组织中,数据差异(数据结构、格式和使用值的差
异)是一个比简单错误严重的问题,可能是数据集成的主要障碍。数据
管理制度专注于定义术语和合并数据周边的语言,这是组织获得更一致
数据的起点。
许多数据治理和信息资产项目仅由合规性驱动,而不是由作为数据
资产衍生的潜在价值驱动。领导层缺乏认可意味着组织内部缺乏将数据
作为资产并进行质量管理的承诺(Evans和Price,2012),如图13-4所
示