基于WordNet和Word2Vec的查询扩展方法
1. 混合查询扩展策略概述
在信息检索领域,查询扩展(QE)是提高查询准确性和召回率的重要手段。现有的QE方法大多单独依赖词汇资源或词嵌入(WE),而未充分利用两者结合的混合策略。本文提出了一种基于词汇资源和WE的混合QE策略,旨在克服单一技术的局限性。
2. 混合QE方法的具体步骤
该混合QE方法应用于典型的问答(QA)管道中,在从用户问题中提取一组相关关键词后,通过干预信息检索(IR)引擎的查询表述来实现。其主要目标有两个:一是通过生成相关词的同义词和上位词,有效扩展查询中指定的相关词数量,提高查询与领域语料库中答案匹配的可能性;二是通过仅选择与用户问题相关的词,限制引入的词数量,减少无关词带来的噪声。该方法主要包括以下三个阶段:
- 生成阶段 :利用词汇资源根据从用户问题中提取的相关词确定候选扩展词。具体步骤为,在从用户问题中提取关键词(特别是名词、动词和形容词)后,使用WordNet为每个相关词生成一组同义词和上位词。形式上,设N为自然数集,W为感兴趣语言L中的词集,Q为L中存在的问题集,Kq为从问题中提取的相关关键词集,此阶段评估元组 (t1, t2, …, tn) (其中ti ∈ Kq ⊆ W且1 ≤ i ≤ n且i, n ∈ N),为每个词ti计算列表sh(ti) = (sht1, sht2, …, shtm),其中shti是WordNet为ti生成的同义词和上位词,m ∈ N。同义词和上位词被收集在一个列表中,不区分它们与ti的不同语义关系的权重。
- 上下文关联阶段 :评估生成阶段得到的列表sh(t1), sh(t2), …
超级会员免费看
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



