文本排序中的关键技术与术语解析
文本排序背景与关键词搜索
在文本排序领域,目前并没有完美的解决方案。为了证明一项创新的通用性,常见的做法是在多个测试集上展示其有效性。如果一个模型在多个测试集上以一致的方法应用(如使用相同的参数,或至少以相同的方式调整参数,不引入特定于某个集合的“技巧”),那么其结果会更可信。
当前,大多数基于Transformer的文本排序应用依赖于多阶段排序架构中的关键词搜索,它主要用于生成候选结果,即初始检索或第一阶段检索,之后再由基于Transformer的模型进行重排序。
关键词搜索是一类依赖精确词匹配来计算查询与语料库中文本相关性得分的技术,通常会使用倒排索引。常见的实现方式是词袋查询,即独立考虑每个查询词的证据(相关性得分)。词袋评分函数可以表示为特定公式的形式,也可以看作两个稀疏向量的内积。不过,关键词搜索并不一定意味着词袋查询,信息检索领域还有很多关于“结构化查询”的研究,旨在捕捉查询词之间的关系,例如共现或连续的查询词(n - 元组)。
如今,词袋查询结合BM25评分是关键词搜索的一种流行选择,但不同的BM25排名效果可能差异较大。例如,在MS MARCO段落排名任务的排行榜上,Anserini系统生成的BM25排名在MRR@10指标上得分为0.186,而微软的BM25基线得分则低2分,为0.165。
不同研究者在多项研究中都观察到了“BM25排名”的显著差异,主要原因如下:
1. BM25变体众多 :除了原始的BM25公式,许多研究者引入了变体,导致在提及BM25时,不清楚具体指的是哪种变体。
2. 文档预处理影响大
超级会员免费看
订阅专栏 解锁全文
1284

被折叠的 条评论
为什么被折叠?



