利用维基百科进行专利分类搜索中的查询短语扩展
1. 引言
查询扩展(QE)是一种信息检索(IR)技术,用于提高文档检索的有效性,通常用于消除用户查询上下文的歧义。伪相关反馈(PRF)是一种自动查询扩展方法,它假设为查询检索到的排名靠前的文档是最相关的。然而,过去的研究表明,类似PRF的模型存在查询主题漂移和效率低下等问题。
人们也曾尝试使用词法资源(如WordNet)进行查询扩展,但由于其词汇和关系覆盖有限,且缺乏每个单词的上下文信息,导致有效性较低。虽然单词的歧义是使用查询扩展消除查询上下文歧义的主要原因,但短语也可以起到相同的作用,因为短语中的周围单词提供了额外的上下文信息。不过,当短语与单词一起用于信息检索时,效果往往不尽如人意,有效性仅有轻微提升甚至下降。
基于PRF中的主题漂移问题、自动识别短语无法提高检索有效性以及使用WordNet进行基于单词的查询扩展的局限性,本文提出了一种新颖的查询扩展方法,即利用维基百科的语义注释(即类别)进行查询短语扩展。该方法旨在通过结合WordNet和维基百科,减少查询主题漂移,处理单词同义词,并通过用短语丰富查询来消除查询上下文的歧义。
专利搜索是一个重要的信息检索领域,特别是在法律信息检索方面。当前的专利搜索系统采用基于关键字的方法,检索的有效性依赖于搜索关键字的质量。专利通常包含大量短语,适合测试本文提出的方法。此外,专利搜索的独特之处在于每个专利都被手动分配到国际专利分类(IPC)的一个或多个类别中,IPC具有三个层次的层次结构:子类(SC)、主组(MG)和子组(SG)。
在实验中,将本文提出的方法与相关性模型(RM)进行比较,因为RM常被用作比较基准。
超级会员免费看
订阅专栏 解锁全文
498

被折叠的 条评论
为什么被折叠?



