16、模式匹配与对等电子商务应用中的数据管理创新

模式匹配与对等电子商务应用中的数据管理创新

模式匹配中的不确定性管理

在模式匹配领域,标准方法存在一个重大缺陷。传统上,它们往往只选定一个最佳映射,通常是在特定约束条件下(如 1:1 映射)使成对相似度之和(或平均值)最大化的那个映射。然而,由于概念解释存在不确定性,匹配器所选的最佳映射实际上可能并非成功之选。

为了缓解这一问题,我们提出不再仅依赖单一最佳映射,而是生成一组前 K 个映射,并对其进行迭代检查,直到找到合适的映射。如果匹配器能将准确映射排名足够高(不一定是最佳),那么就有可能识别出该映射。

我们还提出了一个通用框架,用于同时利用前 K 个映射,并提供了一种名为稳定性分析的具体启发式方法,以利用前 K 个映射提高映射精度(代价是召回率)。经验表明,稳定性分析对单调模式匹配器能产生良好效果。

从实验结果来看,我们仅展示了组合匹配器的结果,因为术语匹配器的结果趋势相同。合成数据和真实数据呈现出相同的趋势,即随着阈值的增加,精度上升,在阈值 t = 0.9 左右趋于平稳。令人有些惊讶的是,随着噪声 v 的增加,启发式方法在精度方面变得更加有效。显然,原始映射的良好起点有助于提升性能,即使噪声增加也是如此。但当我们将启发式方法应用于随机生成的矩阵(其中每个属性对在 [0, 1] 范围内具有均匀分布的值)时,结果变得混乱不堪,该启发式方法几乎毫无用处。召回率的下降则表明了噪声的影响。噪声越多,启发式方法会剔除更多属性映射,包括一些正确的映射。例如,当 v = 0.5 时,匹配器在阈值 t = 10 时召回率损失了 26%(而真实数据的平均召回率损失为 12%)。

不同噪声情况下的实验结果对比:
| 噪声 v 值 | 阈值 t |

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值