15、数据质量研究:现状、进展与未来方向

数据质量研究:现状、进展与未来方向

1. 数据质量研究的背景与挑战

在现实世界中,数据库里的数据质量并非总是如人们所期望的那样好。“脏数据”由于各种原因广泛存在于数据库中。很多数据库领域的人员虽然承认数据质量问题的存在,但往往只将其视为准确性和完整性方面的问题。然而,数据质量的范畴实际上远超这些,还包括可信度、及时性等方面,这些从最终用户的角度来看同样重要,甚至更为关键。数据质量领域的研究人员必须正视这些问题。

2. 数据质量研究的技术与应用

在数据质量研究中,运用了多种技术来解决不同的问题。例如,在近似重复记录检测问题上,采用了聚类和分类等数据挖掘技术。同时,为了在不确定性较高的领域提高准确性,还利用了剪枝和确定性因子。专家系统技术在处理不完整、不精确或不确定信息时,也展现出了提供解决方案的潜力。在信息过量的领域,抽样技术也非常实用。

在记录匹配过程中,实现了知识获取的完全自动化。使用来自 NASA 约翰逊航天中心的 CLIPS 作为推理引擎,将规则集应用于整个数据库,特别是测试集,整个系统用 Perl 编码。初步实验结果表明,这种方法提高了匹配过程的准确性,降低了其复杂性,并且将人工干预降至最低。

以下是数据质量研究中涉及的部分技术及其应用场景:
| 技术 | 应用场景 |
| ---- | ---- |
| 数据挖掘(聚类、分类) | 近似重复记录检测 |
| 剪枝和确定性因子 | 不确定性高的领域提高准确性 |
| 专家系统技术 | 处理不完整、不精确或不确定信息 |
| 抽样技术 | 信息过量的领域 |

3. 数据质量研究的后续进展
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值