改善数据仓库和业务信息质量

文章讨论了数据质量和其两个主要类别——固有特征和实用特征,包括定义的一致性、及时性、准确性和其他相关维度。DAMAUK的白皮书提供了数据质量的六个核心维度,强调了数据的完备性、唯一性和及时性等。此外,还提到了可用性、灵活性和置信度等影响数据质量的因素。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Larry English在《改善数据仓库和业务信息质量》(

Improving Data

Warehouse and Business Information Quality,1999)一书中提出了一套

综合指标,分为两大类别:固有特征和实用特征[6]。固有特征与数据使

用无关,实用特征是动态的,与数据表达相关,其质量价值依赖数据的

用途而不同。

1)固有质量特征

1)定义的一致性。2)值域的完备性。

3)有效性或业务规则一致性。

4)数据源的准确性。

5)反映现实的准确性。

6)精确性。

7)非冗余性。

8)冗余或分布数据的等效性。

9)冗余或分布数据的并发性。

2)实用质量特征

1)可访问性。

2)及时性。

3)语境清晰性。

4)可用性。

5)多源数据的可整合性。

6)适当性或事实完整性。

2013年,DAMA UK发布了一份白皮书,描述了数据质量的6个核

心维度:

1)完备性。存储数据量与潜在数据量的百分比。

2)唯一性。在满足对象识别的基础上不应多次记录实体实例(事

物)。

3)及时性。数据从要求的时间点起代表现实的程度。

4)有效性。如数据符合其定义的语法(格式、类型、范围),则

数据有效。

5)准确性。数据正确描述所描述的“真实世界”对象或事件的程

度。

6)一致性。比较事物多种表述与定义的差异。

DAMA UK白皮书还描述了对质量有影响的其他特性,但没有将这

些指标称为“指标”,它们的工作方式类似于Strong-Wang的语境和表达

数据质量特征,以及English的实用性特征。1)可用性(Usability)。数据是否可理解、简单、相关、可访问、

可维护,且达到正确的精度水平?

2)时间问题(Timing Issues)(超出时效性本身)。是否稳定,是

否对合法的变更请求做出及时响应?

3)灵活性(

Flexibility)。数据是否具有可比性,是否与其他数据

有很好的兼容性?是否具备可用的分组和分类?是否能被重用?是否易

于操作?

4)置信度(Confidence)。数据治理、数据保护和数据安全等管控

是否到位?数据的可信性如何,它是否经验证的或是可验证的?

5)价值(Value)。数据是否有良好的成本/收益实例?是否得到了

最佳应用?是否危及人们的安全、隐私或企业的法律责任?它是否支持

或无助于建立企业形象或企业信息?

虽然不存在单一的、一致认可的数据质量维度集,但这些表述包含

了一些共同的看法:维度包括一些可以客观衡量的特征(完整性、有效

性、格式一致性),以及依赖于情境或主观解释的其他特征(可用性、

可靠性、声誉)。无论使用什么名称,维度都集中在是否有足够的数据

(完整性),数据是否正确(准确度、有效性),数据是否符合要求

(一致性、完整性、唯一性),数据是否最新(及时性)、可访问性、

可用性和安全性。表13-1列示了一组有着普遍一致性的数据质量维度定

义,并描述了测量它们的方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值