14、长文本排序的多阶段架构探索

长文本排序的多阶段架构探索

1. CEDR模型简介

CEDR是首个基于BERT的端到端可微的全文本排序模型。尽管Birch和BERT - MaxP本可以被修改为端到端可微的模型,但之前的研究并未实现这一重要跨越。CEDR通过聚合上下文词嵌入来处理长文档的策略后来被其他研究者采用。它有两个重要优势:一是为BERT的长度限制提供了原则性的解决方案;二是实现了训练和推理(重排序)的统一处理。不过,在完整的CEDR架构中,[CLS]标记的作用还不太明确。

2. PARADE模型详解

PARADE即段落表示聚合文档重排序模型,是CEDR的直接衍生模型,同时借鉴了Birch和BERT - MaxP的经验。与Birch和BERT - MaxP聚合单个段落的分数不同,PARADE聚合长文本中段落的表示。这种设计产生了一个端到端可微的模型,能够统一考虑多个段落,也统一了训练和推理过程。而且,PARADE摒弃了CEDR与BERT前神经排序模型的联系,舍弃了显式的词交互相似度矩阵,从而得到一个比CEDR更简单且通常更有效的排序模型。

2.1 PARADE的文本处理方式

PARADE将长文本分割成固定数量和固定长度的段落。当文本中的段落较少时,会对段落进行填充并在表示聚合时屏蔽;当文本中的段落较多时,始终保留首尾段落,其余段落则进行随机采样。相邻段落部分重叠,以减少相关信息与其上下文分离的可能性。

对于每个段落$P_i$,给定查询$q$,使用预训练的变压器编码器计算段落表示$p_{cls}^i$:
$p_{cls}^i = ELECTRA\ Base(q, P_i)$

这里使用的是经过MS MARCO段落排

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值