信息检索技术的多维度探索
1. 文档得分分布建模相关性分析
在信息检索(IR)系统中,文档得分分布的建模对于准确评估文档与查询的相关性至关重要。我们对四种混合模型在多种 IR 系统和设置下进行了比较分析。
1.1 模型拟合优度
为了进行更广泛的比较,我们在五种 IR 模型上比较了这四种混合模型,包括使用枢轴文档归一化的向量空间模型(PIV)、概率模型(BM25)、语言建模方法(Jelinek - Mercer 平滑)、学习方法(ES)和公理方法(F2EXP)。通过计算 Kolmogorov - Smirnov D 统计量来衡量理论分布与经验分布之间的最大距离,评估模型的拟合优度。
| 集合 | MME - N1E0 | MME - N1N0 | MME - L1L0 | MME - G1G0 | MLE - L1L0 | MLE - G1G0 |
|---|---|---|---|---|---|---|
| AP | 0.4580 | 0.7062 | 0.1676 †5 | 0.2096 | 0.1549 †5 | 0.1901 |
| FT | 0.3690 | 0.6946 |
超级会员免费看
订阅专栏 解锁全文
2677

被折叠的 条评论
为什么被折叠?



