自动查询扩展与分层分类法集成的研究进展
在信息检索和分类法管理领域,自动查询扩展和分层分类法集成是两个重要的研究方向。本文将介绍相关研究中使用的特征、实验环境、结果以及提出的新方法,以帮助大家更好地理解这些技术的应用和发展。
查询分析与候选依赖特征
在查询分析方面,有多种特征与查询难度相关。例如,QIDF、QNS和QMXS等特征已被证明与查询Q的难度存在关联。QMPS和QMXS利用了信息检索(IR)系统提供的检索分数,其中QMPS比较特殊,仅由Okapi系统支持。QPS的提取依赖于WordNet提供的词义频率信息,设qi在WordNet中第一个词义的频率为fi1,所有词义频率之和为fi,则QPS为qi∈Q时(fi1 / fi)的值。
候选依赖特征方面,CPS的提取与查询分析类型的QPS类似。CCRK、CCSA、CWRK和CWSA是从查询Q在ConceptNet和WordNet中的扩散激活结果中提取的。CMPS和CMXS的提取与QMPS和QMXS类似,不过这里的查询会通过分配权重的ek进行扩展。CPTD和CPTT则用于计算ek在查询Q初始检索结果的排名靠前文档中出现的概率。
实验环境与相关设置
实验使用了TREC - 6、TREC - 7和TREC - 8的主题,共150个主题,仅使用每个主题的标题部分来模拟网络搜索中的短查询。IR系统采用Okapi - BM25。从WordNet或ConceptNet中选取除查询词外激活分数排名前N的词作为每个查询的候选扩展词集。采用最先进的分类算法SVM进行粗粒度权重分类,并使用默认的径向基函数作为核函数。当使用TREC - 6主题进行测试时,TREC - 7和TREC - 8主题用于训练,反之亦然。
超级会员免费看
订阅专栏 解锁全文
17

被折叠的 条评论
为什么被折叠?



