43、直接从得分分布预测查询性能及基于维基百科的文本聚类平滑方法

直接从得分分布预测查询性能及基于维基百科的文本聚类平滑方法

1. 直接从得分分布预测查询性能

在查询性能预测领域,有多种方法被提出以准确预估查询的效果。

1.1 基于矩估计的查询性能预测方法(MMP)
  • MMP1与MMP2的原理 :存在一个用于调整归一化平均得分估计的公式,其中K是归一化得分高于0.5的文档数量,N是返回的文档集,α参数在后续实验中设为0.5。当K相对较大时,公式的左边会降低归一化平均得分(∥m′₁∥)的估计值。例如,对于一个返回N = 10,000个文档的查询,若有K = 4,000个文档位于得分分布的上半部分,公式左边(1 - log(4,000) / log(10,000) = 0.099)会返回一个较低的值,可将初始归一化的∥m₁∥估计值降低到0.5以下。新的估计值可进行反归一化以恢复新的更新均值m′₁。这个更新后的均值m′₁可替代初始MMP1方法中的m₁,从而产生第二种方法(MMP2)。
  • 实验结果对比 :将MMP1和MMP2与其他先进的检索后方法进行对比,包括清晰度得分、文档得分在100处的标准差(σ(100))和NQC等。在四个测试集上针对两个著名的信息检索系统(BM25和LM)进行实验,结果显示在大多数集合中,新的MMP方法优于清晰度得分。对于较长的查询,MMP方法的性能总体上与最佳基线相当;对于较短的查询,新的MMP1和MMP2方法通常优于基线,其中MMP2被认为是最佳预测器。通过对每个集合的新MMP方法与基线方法的相关系数进行统计测试,发现大多数集合中相关系数没有显著提高,但在一些集合中,MMP方法显著优于其中一个(通常是较低的)基
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值