SimCSE论文阅读

文章探讨了正负样本在无监督和有监督学习中的构建原则,特别是InfoNCELoss的作用以及如何处理不同类型的负样本,如in-batchsampledsoftmaxloss的效率提升。同时提到了SimCSE的局限性及改进方案,以及PromptBERT如何利用prompt减少偏差。文章还涉及了负样本采样策略的多样性和挑战。
  • 正负样本对构建原理正样本pair:one sentence two different embeddings as “positive pairs”. (通过dropout 作为噪声)
  • 负样本pair:Then we take other sentences in the same mini-batch as “negatives”
  • 任务: the model predicts the positive one among the negatives

在这里插入图片描述

无监督pair构造:

  • 只有自己和自己的随机dropout后的是正样本pair
  • 自己和其他的样本都是负样本

其实一个batch,比如有N个句子对,那么就有2N个句子,其中正例是1个,负样本应该是总样本数目2N减去样本本身,也就是2N-1;

在这里插入图片描述

有监督的pair构造:

按照上图理解,一个句子,有两个已经打好不同的标签的句子,进行配对。pair远离一样。

构造难度增加(一般采用这种策略):二元组变三元组

在这里插入图片描述

i

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值