BERT文档排名:从段落得分聚合到模型变体研究
在信息检索领域,如何准确地对文档进行排名是一个关键问题。BERT(Bidirectional Encoder Representations from Transformers)模型的出现为文档排名带来了新的思路和方法。本文将深入探讨基于BERT的文档排名方法,包括段落得分聚合技术、不同查询表示的影响以及BERT变体的性能比较。
段落得分聚合方法
为了解决BERT模型在处理长文档时的长度限制问题,Dai和Callan提出了一种有效的解决方案,具体步骤如下:
1. 训练阶段 :将文档分割成重叠的段落,将相关文档的所有段落视为相关,非相关文档的所有段落视为非相关。
2. 推理阶段 :以相同的方式分割文档,估计每个段落的相关性,然后对段落相关性得分进行简单聚合,得到文档相关性得分。
文档分割使用150个单词的滑动窗口,步长为75个单词。对于每个段落$p_i \in D$,构建如下序列作为BERT的输入模板:
[
[ [CLS]; q; [SEP]; p_i; [SEP] ]
]
其中,$q$是查询。然后将$[CLS]$标记输入到全连接层,为段落$p_i$生成得分$s_i$。根据以下三种方法对段落相关性得分${s_i}$进行聚合,得到文档相关性得分$s_d$:
- BERT–MaxP :取最大段落得分作为文档得分,即$s_d = \max s_i$。
- BERT–FirstP :取第一个段落的得分作为文档得分,
超级会员免费看
订阅专栏 解锁全文
1846

被折叠的 条评论
为什么被折叠?



