“被玩坏了”的Dropout-优快云博客

本文链接：https://blog.youkuaiyun.com/justorderman/article/details/121191590

一、SimCSE

论文地址：https://arxiv.org/pdf/2104.08821.pdf

•提出了一个基于对比学习的句子表示方法，同时适用于「有监督」和「无监督」场景

•在语义文本相似度匹配（STS）等任务上超过了SOTA

•对比学习的思想：将样本和与它语义相似的样本（正样例）和与它语义不相似的样本（负样例）进行对比，希望通过设计模型结构和对比损失，使语义相近的样本对应的表示在表示空间更接近，语义不相近的样本的距离更远，以达到类似聚类的效果

1.1 Unsupervised SimCSE

无监督版本的SimCSE

通过两次Dropout的方式构构造正样本，同一batch的其他样本构造负样本

本质上就是【自己，自己】构造正样本（通过两次构造dropout）, 【自己，她人】构造负样本

这里讲一下构造正样本的具体做法，在Transformer的Feed Forward Network (前馈神经网络)和Muti-head Attention中加入一个Dropout, 这样的话一个样本两次输入到模型中就能得到两个不同的Embedding以此来构造正例。

(原来dropout还可以这样玩，第一次见到真的是挺惊艳的)

1.2 Supervised SimCSE

监督版本的SimCSE

以NLI中label为「蕴含」的句子对作为正样本，label为「矛盾」的作为负样本

1.3 实验效果

在无监督/有监督场景下均超越SOTA

二、ESimCSE

论文地址：https://arxiv.org/pdf/2109.04380.pdf

这篇paper算是对SimCSE的一个改进，主要有两个点。

2.1 Word Repetion

不管是bert还是robert他们都有一个公同点，就是输入都含有位置信息，那么问题就来了，无监督simcse构造的正样本的两个句子具有相同的长度，负样本通常都有不一样的长度，那么模型是不是认为有相同长度或者相识长度的句子就是正样本（即语义相似），不同长度的句子为负样本，这样显然是非常不合理的。

所以本文作者在构造正样本的时候随机复制正样本中的单词，这样的话构造正样本的两个句子长度就会不一样了（当然随机复制几个单词不会影响语义）

$dup\_rate$ 是一个超参数表示的是复制单词的比率， $dup\_len$ 是上面定义的集合中的随机采样数，这将在扩展序列长度时引入更多的多样性。确定「dup_len」后，我们使用「均匀分布」从序列中随机选择需要重复的dup_len子词，组成「dup_set」。

原文中举了一个例子，如果句子中的第一个词在 $dup\_set$ 中，则 $x={x_1,x_2,x_3..x_N}$ ， $x^+={x_1,x_1,x_2,x_3..x_N}\\$ 「不同于无监督的SimCSE需要通过两次BERT生成和，ESimCSE生成的和是相互独立的」。

2.2 Momentum Contrast

Momentun Contrast（动量对比）允许我们通过维护「固定大小的队列」来重用前面mini-batch中编码的句子Embedding。具体来说，队列中的Embedding会被逐步替换。「若当前mini-batch中输出句子的Embedding入队时，如果队列已满，则删除队列中“最旧”的句子Embedding。」

我们使用「动量更新编码器」对排队的句子Embedding进行编码。编码器的参数为，动量更新编码器的参数为，我们按以下方式更新：‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍