直接从得分分布预测查询性能及基于维基百科的文本聚类平滑方法
1. 直接从得分分布预测查询性能
在查询性能预测领域,有多种方法被提出以准确预估查询的效果。
1.1 基于矩估计的查询性能预测方法(MMP)
- MMP1与MMP2的原理 :存在一个用于调整归一化平均得分估计的公式,其中K是归一化得分高于0.5的文档数量,N是返回的文档集,α参数在后续实验中设为0.5。当K相对较大时,公式的左边会降低归一化平均得分(∥m′₁∥)的估计值。例如,对于一个返回N = 10,000个文档的查询,若有K = 4,000个文档位于得分分布的上半部分,公式左边(1 - log(4,000) / log(10,000) = 0.099)会返回一个较低的值,可将初始归一化的∥m₁∥估计值降低到0.5以下。新的估计值可进行反归一化以恢复新的更新均值m′₁。这个更新后的均值m′₁可替代初始MMP1方法中的m₁,从而产生第二种方法(MMP2)。
- 实验结果对比 :将MMP1和MMP2与其他先进的检索后方法进行对比,包括清晰度得分、文档得分在100处的标准差(σ(100))和NQC等。在四个测试集上针对两个著名的信息检索系统(BM25和LM)进行实验,结果显示在大多数集合中,新的MMP方法优于清晰度得分。对于较长的查询,MMP方法的性能总体上与最佳基线相当;对于较短的查询,新的MMP1和MMP2方法通常优于基线,其中MMP2被认为是最佳预测器。通过对每个集合的新MMP方法与基线方法的相关系数进行统计测试,发现大多数集合中相关系数没有显著提高,但在一些集合中,MMP方法显著优于其中一个(通常是较低的)基
超级会员免费看
订阅专栏 解锁全文
1328

被折叠的 条评论
为什么被折叠?



