物联网环境下数据质量指标的定义与应用
1. 引言
随着物联网设备数量的不断增加,数据的可用性大幅提升。智慧城市、工业4.0、社交网络和农业等领域创造了众多新的数据来源,推动了新应用和用例的发展。然而,由于数据源的异质性和数量庞大,确保数据质量对于避免错误决策和提升智能应用的用户体验至关重要。
虚假或误导性信息可能会在信息处理和使用过程中引发问题,从简单的传感器故障到恶意提供虚假信息,都可能导致系统和应用程序出现故障。为了解决这些问题,我们需要集成质量度量和分析模块来评估数据源,以确定最适合获取所需信息的数据源。
数据质量(DQ)有多种定义,主要包括:
- 数据适合预期用途时,质量较高。
- 数据能正确代表所描述的现实世界结构时,质量较高。
在本文中,我们将定义数据质量的指标,并在多个物联网场景中进行计算,以验证其可行性。
2. 相关工作和背景
数据质量研究最初在包含多数据源的数据库背景下兴起。Strong等人指出,错误数据会造成巨大的经济损失,并提出了信息质量(QoI)的概念,将其分为四个类别,并为每个类别定义了可测量的指标。随后,多个解决QoI的框架相继开发。
如今,物联网数据广泛存在于各种场景中,一些特定领域已经有了估计DQ的方法,如健康和智能电网中的能源消耗等。这些方法通常将一组测试定义为查询,使用数学公式或自然语言来检查领域专家指定的属性,但这些方法难以更新或应用于其他问题。
数据质量工具通常涉及数据清理、数据集成、主数据管理和元数据管理。在选择工具时,需要考虑一些挑战,如不正确的数据、重复数据、缺失数据和其他数据完整性问题,这些问题可能会严重影响项
超级会员免费看
订阅专栏 解锁全文
2375

被折叠的 条评论
为什么被折叠?



