12、BERT文档排名：从段落得分聚合到模型变体研究

最新推荐文章于 2025-09-27 07:54:33 发布

wasm7browser

最新推荐文章于 2025-09-27 07:54:33 发布

阅读量36

点赞数

CC 4.0 BY-SA版权

分类专栏： BERT与文本排序的革命文章标签： BERT 文档排名段落得分聚合

本文链接：https://blog.youkuaiyun.com/wasm7browser/article/details/151094991

BERT与文本排序的革命专栏收录该内容

30 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

BERT文档排名：从段落得分聚合到模型变体研究

在信息检索领域，如何准确地对文档进行排名是一个关键问题。BERT（Bidirectional Encoder Representations from Transformers）模型的出现为文档排名带来了新的思路和方法。本文将深入探讨基于BERT的文档排名方法，包括段落得分聚合技术、不同查询表示的影响以及BERT变体的性能比较。

段落得分聚合方法

为了解决BERT模型在处理长文档时的长度限制问题，Dai和Callan提出了一种有效的解决方案，具体步骤如下：
1. 训练阶段 ：将文档分割成重叠的段落，将相关文档的所有段落视为相关，非相关文档的所有段落视为非相关。
2. 推理阶段 ：以相同的方式分割文档，估计每个段落的相关性，然后对段落相关性得分进行简单聚合，得到文档相关性得分。

文档分割使用150个单词的滑动窗口，步长为75个单词。对于每个段落$p_i \in D$，构建如下序列作为BERT的输入模板：
[
[ [CLS]; q; [SEP]; p_i; [SEP] ]
]
其中，$q$是查询。然后将$[CLS]$标记输入到全连接层，为段落$p_i$生成得分$s_i$。根据以下三种方法对段落相关性得分${s_i}$进行聚合，得到文档相关性得分$s_d$：
- BERT–MaxP ：取最大段落得分作为文档得分，即$s_d = \max s_i$。
- BERT–FirstP ：取第一个段落的得分作为文档得分，