结合WordNet和ConceptNet进行自动查询扩展的学习方法
1. 引言
查询扩展(QE)是一种广为人知且流行的技术,用于提高典型信息检索(IR)系统的性能。其有效性源于用户的查询(尤其是短查询)通常无法清晰描述其信息需求,而且查询中的词汇有时与相关文档中的词汇不一致。自动QE的典型术语来源包括:
1. 查询日志;
2. 从语料库构建的统计词库;
3. 初始检索的排名靠前的文档;
4. 通用知识库,如WordNet和ConceptNet。
Hsu等人研究发现,WordNet和ConceptNet在QE方面具有内在的互补性。虽然ConceptNet中的常识知识直观上对IR有用,但将“概念”引入自动QE仍然具有挑战性。本文旨在自动结合这两种资源,以提高检索性能。
在过去的研究中,扩展候选术语通常根据它们与查询的共现相关性进行排名和选择,并且扩展术语的权重通常由相关性或常数参数决定。然而,基于共现统计的QE方法存在局限性,一些好的扩展术语可能与查询术语不经常共现,而一些与查询具有高共现相关性的术语可能不适合赋予高权重进行扩展。因此,研究一种更好的QE加权方法将更有力地支持IR系统。
本文研究是否存在仅依赖于查询的特征,能够确定该查询的扩展术语的适当权重。例如,一个“简单”的查询(如平均精度 = 0.9)可能只需要“轻微”(即权重较轻)有用的扩展术语,而一个“困难”的查询(如平均精度 = 0.1)可能需要“极大”(即权重较重)有用的扩展术语。这些与扩展术语无关的特征在以往涉及QE的工作中很少被研究,但与预测查询难度的研究密切相关。
为了通过为扩展术语分配适当的权重来结合WordNet和ConceptNe
超级会员免费看
订阅专栏 解锁全文
21

被折叠的 条评论
为什么被折叠?



