数据质量指标

最新推荐文章于 2024-07-20 08:11:58 发布

原创最新推荐文章于 2024-07-20 08:11:58 发布 · 2.7k 阅读

CC 4.0 BY-SA版权

文章标签：

7 篇文章

订阅专栏

5 篇文章

订阅专栏

本文介绍了衡量数据质量的两种主要类别：数据本身的质量指标和实际的质量指标，并详细解释了每种指标的具体含义及其重要性。

部署运行你感兴趣的模型镜像

对于数据质量的衡量可以分成两种类别：

数据本身的质量指标－数据的质量特征并不依赖于这些数据是如何被使用的。这些质量特征是用来衡量数据本身的，和这些数据如何被使用，以及数据流下游的应用无关。

实际的质量指标－这些指标衡量数据是如何展现和使用的，评判数据是否对于用户和相关的处理来说相关完整。

数据本身的质量指标包含以下这些特征：

定义一致性－数据定义和实际数据值的一致性。例如：对于一个数据项”暂停终止时间”是用来描述一暂停业务什么时候到期的，在系统中这个值应该被赋予合同上的值，但是当这项业务发生改变时，这个值没有被更新，那么这个值就可能是不正确的。

完整性－是否所有的域都有数据代表数据是否完整。这个指标代表参与统计的域中有百分之几有数据值。例如：我们需要了解每个个体对于“职业”相关属性有多少是没有数据的，如果这个百分比很大，那么针对这个域所做的相关分析报告就可能是与事实不符的。

业务规则一致性－这个指标衡量数据和它的领域以及业务规则是否一致。它是有百分之几的数据符合业务规则。例如，业务规则是：“当前存在欠费的所有帐户都不被分类”这个指标就是来衡量多少记录违背了这个规则。

对于代理源的正确性－数据是否和原始的数据源一致。这个指标是有百分之几的数据是和权威的数据源一致的。例如：用来比较总帐和每个客户帐目上的余额的财务对帐表。又例如：公司的名称是否和对外注册的名称一致。

真实性－数据是否和真实世界中的对象或事件一致。这个指标是信息质量的最高的指标。虽然数据可能和权威数据源一致，但是他们仍然可能和事实不一致。这个指标需要通过和物理数据的比较来评测。

精度－精度是正确的数据质量最小颗粒度。这个指标是多少百分比的记录达到所需要的正确颗粒度。如果不同过程需要数据不同的精度，那最低的精度是最后使用的精度。例如：对于市场部门来说，位置精确到区域就足够了，但是对于通信来说就需要把位置精确到每个地址上的一点。

非冗余性－唯一性衡量数据是否对于真实世界中的对象或者事件有一对一的关联规则。这个指标是多少百分比的数据是冗余的，即两个或者多个记录是指真实世界中的一个对象或者事件。对于相互独立的数据库中维护了冗余的数据是很常见的问题，典型的例子就是客户信息冗余。

分布式数据的同步－在一个数据库中的数据发生了改变或者有新的数据插入，这些数据的改变信息需要传播到另一个数据库。这个指标描述了从一个数据库到另一个数据传播数据所需要的时间。分布式数据同步可能会造成问题，当遗失一些操作的时候（信息就不能及时到达）或者是在不同地点得到的报告是不同的。

实际的质量指标包含以下属性：

可得性－用来度量在需要的时候获取数据的难易程度。存在一个潜在的可用性（是否公司或者部门处理了数据？）和实际的数据访问度（访问数据的难易程度）同时在这个指标中我们包含了获得和展现数据速度的信息。

时间性－在定义的时间中支持所给流程的数据可用性。这个指标表示数据流的时间是否可以接受。

上下文关联性－衡量数据的展现是否可以帮助使用者理解数据的意义并避免错误和误解。这是一个主要的衡量指标描述信息是如何展现的。

相关性的完整性－从其他数据经过计算所得的正确性。这个指标表示所有计算记录的正确性。为了衡量这些属性，我们必须有一个正确的计算定义。

可用性－对于展现信息的使用和理解的简易程度。这是一个主要的指标来衡量展现的信息对于所支持的流程或者决策是否有效。

事实完整性－衡量是否有正确质量的正确数据来支持所给的流程。这个指标不包含如果一些事实遗失或者没有所需要的质量。

您可能感兴趣的与本文相关的镜像

Wan2.2-T2V-A5B

文生视频

Wan2.2

Wan2.2是由通义万相开源高效文本到视频生成模型，是有50亿参数的轻量级视频生成模型，专为快速内容创作优化。支持480P视频生成，具备优秀的时序连贯性和运动推理能力