全文摘要
本文介绍了一种增强的无监督句子嵌入方法——ESimCSE。该方法通过引入重复操作和动量对比等技术,对原始的SimCSE模型进行了改进。实验结果表明,相较于原模型,ESimCSE在语义文本相似性任务上表现更好。

论文方法
方法描述
本文提出了一种增强版的Contrastive Sequence-to-Sequence Learning(ESimCSE)模型,用于自然语言处理任务中的句子表示学习。该模型在原有的SimCSE模型基础上进行了两个改进:引入了子词重复机制来构造更好的正样本对,并采用了动量对比方法来扩展负样本对。
方法改进
子词重复机制
子词重复机制通过随机复制句子中的一些子词来增加序列长度,从而提高模型的多样性。具体来说,给定一个句子s,经过子词分词后得到一个子词序列表示为x={x1,x2,...,xN},其中N是序列的长度。我们定义重复标记的数量为d,其最大重复率为超参数dup_rate。然后dup_len是一个在上文中定义的集合内的随机采样值,它将引入更多的多样性来扩展序列长度。确定dup_len之后,我们使用均匀分布随机选择需要重复的dup_len个子词,这些子词组成了dup_set,如下所示:
dup_set = uniform([1,N],num=dup_len)
例如,如果第一个子词在dup_set中,则序列x变为x+={x1,x1,x2,...,xN}。与SimCSE不同的是,E-SimCSE独立地传递x和x+。
动量对比方法
动量对比方法允许我们在当前批量中的输出句子嵌入被加入队列时,利用先前批次的编码句子嵌入进行重用。具体来说,队列中保存固定大小的句子嵌入,并逐步替换它们。当当前批次的输出句子嵌入被加入队列时,如果队

最低0.47元/天 解锁文章
513

被折叠的 条评论
为什么被折叠?



