25、学习密集表示用于排序：Sentence - BERT、DPR与ANCE技术解析

最新推荐文章于 2025-10-08 13:59:02 发布

wasm7browser

最新推荐文章于 2025-10-08 13:59:02 发布

阅读量36

点赞数

CC 4.0 BY-SA版权

分类专栏： BERT与文本排序的革命文章标签：密集检索 Sentence-BERT DPR

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wasm7browser/article/details/151095048

BERT与文本排序的革命专栏收录该内容

30 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

学习密集表示用于排序：Sentence - BERT、DPR与ANCE技术解析

1. 密集检索技术发展概述

早期，一些研究在缺乏标注数据的情况下，选择基于逆完形填空任务（ICT）的弱监督技术进行预训练，如Guu等人将密集检索直接融入预训练机制。不过，Karpukhin等人的研究表明，这些方法在问答基准测试中的效果不如直接检索监督。之后，Yang等人提出PairwiseBERT，用于解决跨语言知识图谱中实体对齐的跨语言排序问题；Chang等人提出“双塔检索模型”，专注于不同的弱监督预训练任务。

到2020年，密集检索领域迎来了一系列重要进展，2月有TwinBERT，4月有CLEAR、DPR和MatchBERT，6月有RepBERT，7月有ANCE。至此，密集检索的潜力在相关文献中得到了确立。

2. 基础双编码器设计：Sentence - BERT

Sentence - BERT是用于生成语义有意义的句子嵌入以进行大规模文本相似度比较的双编码器设计的典型示例。其整体架构如下：
- 编码器基础模型 ：Reimers和Gurevych尝试以BERT和RoBERTa为编码器基础，并提出三种生成表示向量的方法：
1. 采用[CLS]标记的表示。
2. 对所有上下文输出表示进行平均池化。
3. 对所有上下文输出表示进行最大池化。
- 训练方式 ：
- 分类任务 ：将表示向量u、v及其元素差异|u - v|拼接后输入softmax分类器，公式为$o = softmax(W_t \cdot [u \op

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。