- 正负样本对构建原理正样本pair:one sentence two different embeddings as “positive pairs”. (通过dropout 作为噪声)
- 负样本pair:Then we take other sentences in the same mini-batch as “negatives”
- 任务: the model predicts the positive one among the negatives

无监督pair构造:
- 只有自己和自己的随机dropout后的是正样本pair
- 自己和其他的样本都是负样本
其实一个batch,比如有N个句子对,那么就有2N个句子,其中正例是1个,负样本应该是总样本数目2N减去样本本身,也就是2N-1;

有监督的pair构造:
按照上图理解,一个句子,有两个已经打好不同的标签的句子,进行配对。pair远离一样。
构造难度增加(一般采用这种策略):二元组变三元组


文章探讨了正负样本在无监督和有监督学习中的构建原则,特别是InfoNCELoss的作用以及如何处理不同类型的负样本,如in-batchsampledsoftmaxloss的效率提升。同时提到了SimCSE的局限性及改进方案,以及PromptBERT如何利用prompt减少偏差。文章还涉及了负样本采样策略的多样性和挑战。
最低0.47元/天 解锁文章
1211





