数据质量代数与上下文交换挑战解析
数据质量代数
在数据处理中,我们常常需要对数据的质量进行评估。这里将基于输入关系的准确性估计,为五种正交代数运算(选择、投影、笛卡尔积、并集和差集)计算报告的准确性度量。其他传统运算符可以用这些运算符来定义。
选择操作的数据准确性估计
选择操作是一元操作,记为 (R = \sigma_cS),其中 ‘(\sigma_c)’ 表示选择条件。并且,(S) 和 (A_R) 必须满足以下边界条件:
- 当 (A_S = 1) 时,(A_R = 1) ((S1))
- 当 (A_S = 0) 时,(A_R = 0) ((S2))
根据定义,关系 (S) 中每个元组的概率准确性由 (A_S) 给出。由于选择操作从 (S) 中选择元组的一个子集,因此 (R) 中准确元组的估计数量为 (|R| * A_S)。
该公式满足上述两个边界条件。同样,(R) 中错配元组的百分比 (I_{MR}) 和 (R) 中至少有一个不准确属性值的元组的百分比 (I_{AR}) 可以估计如下:
- (I_{MR} = I_{MS})
- (I_{AR} = I_{AS})
这里 (I_{MS}) 表示 (S) 中错配元组的百分比,(I_{AS}) 表示 (S) 中至少有一个不准确属性值的元组的百分比。
上述公式是在假设误差均匀分布的情况下推导出来的。当误差分布不均匀时,选择操作的最坏和最好情况可以分析如下:
- 最坏情况 :
- 当 (|S_i| \geq |R|) 时,所有选入 (R) 的元组都是不准确
超级会员免费看
订阅专栏 解锁全文
58

被折叠的 条评论
为什么被折叠?



