相似度_对抗学习:SimCSE: Simple Contrastive Learning of Sentence Embeddings

SimCSE是一种无监督的句子表示学习方法,通过应用dropout两次来创建正负样本。同一句子的不同dropout版本作为正样本,而同一批次的其他句子作为负样本。该模型旨在增强句子的语义一致性,并通过对比学习解决词向量的异质性问题。在语义文本相似性任务(STS)中展示了其效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

SimCSE: Simple Contrastive Learning of Sentence Embeddings

这篇论文,我觉得有意思。在创造对抗学习的正负例时,正例直接使用它本身。将同一个句子传递给预先训练好的编码器两次:通过应用两次dropout,我们可以得到两个不同的嵌入作为 “正实例”。然后,我们把同一小批中的其他句子作为 “负实例”
我们首先描述了一种无监督的方法,它采用输入句子并在对比性目标中预测自己,只用dropout 的size大小作为噪音。

以语义相关的正实例之间的一致性和整个表示空间的均匀性来衡量所学嵌入的质量
alignment and uniformity

在这里插入图片描述

无监督训练过程

在无监督学习中,采用对抗学习增强实例语义表征能力。
训练目标:两个相同的实例采用不同的dropout mask。

在这里插入图片描述

在这里插入图片描述

监督训练过程

训练目标是预测两个句子之间的关系:是连带的、中性的还是矛盾的——entailment, neutral or contradiction.
在语料中,有positive instance,negative instance,original instance。

在这里插入图片描述

所以,做对抗学习的目的,也是为了解决了词向量表征的各项异性问题。

实验

STS任务:semantic textual similarity 任务

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YJII

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值