Class-Aware Contrastive Semi-Supervised Learning(CVPR.2022)
研究背景(Background)
原始数据的定义是分布内数据 (已知类和平衡分布) 和分布外数据 (未知类或不平衡分布) 的联合集合。一般地,在伪标签上进行训练的基本假设是标记数据的分布接近未标记,并且未标记的数据集不包含任何新颖的类别。然而,这种假设通常在具有大量分发外数据的实际应用程序中不成立,人工自生的伪标签存在确认偏差且含有噪声,并且在含噪声的分发外数据的实际应用场景中模型的判断能力受到了干扰。
SSL使用了许多技术用以减轻确认偏差,例如利用模型的自校正能力、设置高置信度的阈值滤除噪声以及预测的不确定性