1. Motivation:
之前提出的很多方法都存在under-estimate error的问题,所以作者研究定义了pseudo-label shift,指出这个伪标签分布偏移和误差校正miscalibration在经验上是正相关的,而伪标签分布偏移的越大导致的基于AC的方法的偏差越大,所以针对这个问题,提出了COT/COTT的方法。
2. Introduction:
首先作者和之前的一些研究一样陈述了一个事实就是,在不做任何假设的前提下不可能预测得到未标注OOD的表现,而之前的很多方法的假设都是P(y|x)条件概率分布不变,并且提出很多启发式的方法。其中很流行的一个baseline就是AC——average score并不是很好,因为实际上模型的softmax概率输出和真实的模型输出的置信度并不完全一致,这在其他的论文里面也有专门的研究和分析,这种表现可以称为“miscalibration”,作者经验的发现这种miscalibration和伪标签的分布偏移是正相关的,并且将这种伪标签分布偏移作为underestimate的关键因素。
本论文的方法COT——confidence optimal transport,利用了最优传输的框架来预测OOD的表现,运输的源和目标分别就是预测的概率分布和真实的标签分布。从宏观上整体理解,就是比如得到的所有样本的概率分布作为一个分布,所有样本的真实标签作为一个分布,我们通过度量将预测得到的分布迁移到真实的分