学习密集表示用于排序:Sentence - BERT、DPR与ANCE技术解析
1. 密集检索技术发展概述
早期,一些研究在缺乏标注数据的情况下,选择基于逆完形填空任务(ICT)的弱监督技术进行预训练,如Guu等人将密集检索直接融入预训练机制。不过,Karpukhin等人的研究表明,这些方法在问答基准测试中的效果不如直接检索监督。之后,Yang等人提出PairwiseBERT,用于解决跨语言知识图谱中实体对齐的跨语言排序问题;Chang等人提出“双塔检索模型”,专注于不同的弱监督预训练任务。
到2020年,密集检索领域迎来了一系列重要进展,2月有TwinBERT,4月有CLEAR、DPR和MatchBERT,6月有RepBERT,7月有ANCE。至此,密集检索的潜力在相关文献中得到了确立。
2. 基础双编码器设计:Sentence - BERT
Sentence - BERT是用于生成语义有意义的句子嵌入以进行大规模文本相似度比较的双编码器设计的典型示例。其整体架构如下:
- 编码器基础模型 :Reimers和Gurevych尝试以BERT和RoBERTa为编码器基础,并提出三种生成表示向量的方法:
1. 采用[CLS]标记的表示。
2. 对所有上下文输出表示进行平均池化。
3. 对所有上下文输出表示进行最大池化。
- 训练方式 :
- 分类任务 :将表示向量u、v及其元素差异|u - v|拼接后输入softmax分类器,公式为$o = softmax(W_t \cdot [u \op
超级会员免费看
订阅专栏 解锁全文
1141

被折叠的 条评论
为什么被折叠?



