分类法间概率映射的发现与分析
1. 噪声对分类器精度和召回率的影响
在研究分类器结果和映射概率值时,发现当噪声为 0% 时,存在一些无效映射被错误地赋予了过高的概率,从而被视为有效映射,这解释了精度值未达到完美的 0.88 的原因。这些映射的概率值接近阈值。当增加噪声时,分类器变得更加严格,所有概率值都有下降趋势。对于一定程度的噪声,无效映射的概率会降至阈值以下,而有效映射的概率仍保持在阈值以上,从而提高了精度。
2. 真实世界 OAEI 数据实验
- 实验数据 :对 OAEI 竞赛的目录集进行实验,该集合由两个分别包含 2857 和 6628 个类别的大型分类法组成。如果不进行剪枝,搜索空间将达到 3000 万个映射。
- 实例填充 :为了弥补这些分类法中可用实例的不足,采用受相关方法启发的方式,自动用 WordNet 同义词集填充类。原理是将每个类 C 与一组能反映其在所属分类法中上下文含义的同义词集关联起来,帮助消除词义歧义。例如,“Arizona” 可能指美国的一个州或一种蛇,如果它是 “Animals” 类的子类,就可推测其指蛇的物种。
- 实验结果 :在两个完整的分类法上,填充阶段产生约 30000 个实例,耗时 5 小时,而映射发现算法仅需 11 分钟。基于 OAEI 提供的部分参考,在阈值 Su 和 Sc 分别设为 0.9 和 0.8 时,得到的精度下限为 67%。
3. 网络目录的比较分析
-
实验数据
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



