Larry English在《改善数据仓库和业务信息质量》(
Improving Data
Warehouse and Business Information Quality,1999)一书中提出了一套
综合指标,分为两大类别:固有特征和实用特征[6]。固有特征与数据使
用无关,实用特征是动态的,与数据表达相关,其质量价值依赖数据的
用途而不同。
(
1)固有质量特征
1)定义的一致性。2)值域的完备性。
3)有效性或业务规则一致性。
4)数据源的准确性。
5)反映现实的准确性。
6)精确性。
7)非冗余性。
8)冗余或分布数据的等效性。
9)冗余或分布数据的并发性。
(
2)实用质量特征
1)可访问性。
2)及时性。
3)语境清晰性。
4)可用性。
5)多源数据的可整合性。
6)适当性或事实完整性。
2013年,DAMA UK发布了一份白皮书,描述了数据质量的6个核
心维度:
1)完备性。存储数据量与潜在数据量的百分比。
2)唯一性。在满足对象识别的基础上不应多次记录实体实例(事
物)。
3)及时性。数据从要求的时间点起代表现实的程度。
4)有效性。如数据符合其定义的语法(格式、类型、范围),则
数据有效。
5)准确性。数据正确描述所描述的“真实世界”对象或事件的程
度。
6)一致性。比较事物多种表述与定义的差异。
DAMA UK白皮书还描述了对质量有影响的其他特性,但没有将这
些指标称为“指标”,它们的工作方式类似于Strong-Wang的语境和表达
数据质量特征,以及English的实用性特征。1)可用性(Usability)。数据是否可理解、简单、相关、可访问、
可维护,且达到正确的精度水平?
2)时间问题(Timing Issues)(超出时效性本身)。是否稳定,是
否对合法的变更请求做出及时响应?
3)灵活性(
Flexibility)。数据是否具有可比性,是否与其他数据
有很好的兼容性?是否具备可用的分组和分类?是否能被重用?是否易
于操作?
4)置信度(Confidence)。数据治理、数据保护和数据安全等管控
是否到位?数据的可信性如何,它是否经验证的或是可验证的?
5)价值(Value)。数据是否有良好的成本/收益实例?是否得到了
最佳应用?是否危及人们的安全、隐私或企业的法律责任?它是否支持
或无助于建立企业形象或企业信息?
虽然不存在单一的、一致认可的数据质量维度集,但这些表述包含
了一些共同的看法:维度包括一些可以客观衡量的特征(完整性、有效
性、格式一致性),以及依赖于情境或主观解释的其他特征(可用性、
可靠性、声誉)。无论使用什么名称,维度都集中在是否有足够的数据
(完整性),数据是否正确(准确度、有效性),数据是否符合要求
(一致性、完整性、唯一性),数据是否最新(及时性)、可访问性、
可用性和安全性。表13-1列示了一组有着普遍一致性的数据质量维度定
义,并描述了测量它们的方法