长文本排序的多阶段架构探索
1. CEDR模型简介
CEDR是首个基于BERT的端到端可微的全文本排序模型。尽管Birch和BERT - MaxP本可以被修改为端到端可微的模型,但之前的研究并未实现这一重要跨越。CEDR通过聚合上下文词嵌入来处理长文档的策略后来被其他研究者采用。它有两个重要优势:一是为BERT的长度限制提供了原则性的解决方案;二是实现了训练和推理(重排序)的统一处理。不过,在完整的CEDR架构中,[CLS]标记的作用还不太明确。
2. PARADE模型详解
PARADE即段落表示聚合文档重排序模型,是CEDR的直接衍生模型,同时借鉴了Birch和BERT - MaxP的经验。与Birch和BERT - MaxP聚合单个段落的分数不同,PARADE聚合长文本中段落的表示。这种设计产生了一个端到端可微的模型,能够统一考虑多个段落,也统一了训练和推理过程。而且,PARADE摒弃了CEDR与BERT前神经排序模型的联系,舍弃了显式的词交互相似度矩阵,从而得到一个比CEDR更简单且通常更有效的排序模型。
2.1 PARADE的文本处理方式
PARADE将长文本分割成固定数量和固定长度的段落。当文本中的段落较少时,会对段落进行填充并在表示聚合时屏蔽;当文本中的段落较多时,始终保留首尾段落,其余段落则进行随机采样。相邻段落部分重叠,以减少相关信息与其上下文分离的可能性。
对于每个段落$P_i$,给定查询$q$,使用预训练的变压器编码器计算段落表示$p_{cls}^i$:
$p_{cls}^i = ELECTRA\ Base(q, P_i)$
这里使用的是经过MS MARCO段落排
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



