模式匹配与对等电子商务应用中的数据管理创新
模式匹配中的不确定性管理
在模式匹配领域,标准方法存在一个重大缺陷。传统上,它们往往只选定一个最佳映射,通常是在特定约束条件下(如 1:1 映射)使成对相似度之和(或平均值)最大化的那个映射。然而,由于概念解释存在不确定性,匹配器所选的最佳映射实际上可能并非成功之选。
为了缓解这一问题,我们提出不再仅依赖单一最佳映射,而是生成一组前 K 个映射,并对其进行迭代检查,直到找到合适的映射。如果匹配器能将准确映射排名足够高(不一定是最佳),那么就有可能识别出该映射。
我们还提出了一个通用框架,用于同时利用前 K 个映射,并提供了一种名为稳定性分析的具体启发式方法,以利用前 K 个映射提高映射精度(代价是召回率)。经验表明,稳定性分析对单调模式匹配器能产生良好效果。
从实验结果来看,我们仅展示了组合匹配器的结果,因为术语匹配器的结果趋势相同。合成数据和真实数据呈现出相同的趋势,即随着阈值的增加,精度上升,在阈值 t = 0.9 左右趋于平稳。令人有些惊讶的是,随着噪声 v 的增加,启发式方法在精度方面变得更加有效。显然,原始映射的良好起点有助于提升性能,即使噪声增加也是如此。但当我们将启发式方法应用于随机生成的矩阵(其中每个属性对在 [0, 1] 范围内具有均匀分布的值)时,结果变得混乱不堪,该启发式方法几乎毫无用处。召回率的下降则表明了噪声的影响。噪声越多,启发式方法会剔除更多属性映射,包括一些正确的映射。例如,当 v = 0.5 时,匹配器在阈值 t = 10 时召回率损失了 26%(而真实数据的平均召回率损失为 12%)。
不同噪声情况下的实验结果对比:
| 噪声 v 值 | 阈值 t |
超级会员免费看
订阅专栏 解锁全文
27

被折叠的 条评论
为什么被折叠?



