对比学习是一种自监督学习方法,其目标是学习数据的表征(representation),使得在表征空间中,相似的样本距离更近,不相似的样本距离更远。通过设计对比损失函数(Contrastive Loss),模型能够有效捕捉数据的语义结构。
核心思想
对比学习的关键在于:
- 正样本(Positive Pair):具有相似语义或来源的样本对,例如同一图像的不同增强版本。
- 负样本(Negative Pair):语义不同或来源不同的样本对,例如不同图像。
通过对比正负样本对,模型能够学习区分不同数据点的特征。
方法流程
- 数据增强:对一个样本 x 应用两种不同的增强方法,生成
,作为正样本对。
- 特征提取:通过编码器(如卷积神经网络)将数据映射到潜在特征空间,得到表征
。
- 对比损失:设计损失函数,使正样本对的表征距离最小化,负样本对的表征距离最大化。
对比学习的损失函数
1. 对比损失(Contrastive Loss)
对比损失鼓励正样本对的距离更小,负样本对的距离更大。