好久好久没有记录笔记了~感觉还是分享出来的印象更深刻一些 ~让自己多思考一点点
摘要:
inference的方式对fsl的分割任务性能有着巨大的影响,而这一点往往被其他论文忽视,转而偏向元学习的范式。
文章提出了transductive 的inference方式,即:对每个query image,统计其unlabeled 像素的信息,通过优化包含三个互补项的新损失
1. intro
目前常见的FSL论文都是基于元学习的范式,这有两个问题:
- episodic 的训练方式,本身隐含的假设了test task的结构与meta-training阶段的train task结构相似
- base类和novel类往往都是从同一个数据集中采样得到
而在实际场景中,这两个假设可能会限制few shot分割方法的适用性。而且,在最近的一些分类工作上,现有的元学习方法在cross-domain场景中的表现并没有什么竞争力。这让作者怀疑已经成了fsl普遍选择的meta-learning系列的效果。
贡献:
- 放弃元学习,重新考虑最简单的方法:在基类提特征时使用简单交叉熵监督(那元学习是什么监督?)
- 提出transductive 的推理方式,它可以比现有方法更好的利用support集的信息。
- 提出了新的transductive inference方法,RePRI(Region Proportion Regularized Inference)。
RePRI优化由以下三项组成的loss:
1. support set中有标签像素的标准交叉熵loss
2. test image中query image的后验熵?
3. 基于test image上预测的前景像素点比例的 全局KL散度
RePRI可以在任何训练好的backbone最顶层使用,并使用和标准的归纳式(inductive)方法所使用的完全相同的信息。- 虽然文章在训练基类时仅仅使用了交叉熵,而不是复杂的元学习策略,但RePRI仍然得到了超出sota 5%的成绩。
- 还引入了最近很火的关于图像特征分布的调整trick,加上这个才达到了最佳
- 证明在query 上精确的区域分布信息可以很大改善结果。两个数据集的平均收益为13%。尽管假设这类信息可获得可能是不切实际的,但作者发现即使是不精确的估计也可带来巨大改善。
3. 方法
3.2 base training
episodic training中的inductive bias :关于基类的使用,目前占主导地位的都是基于元学习的方法。它将基类训练集划分为一个个train episode。《A theoreti-cal analysis of the number of shots in few-shot learning》正式证明:原型网络中,train episode中的 K (shots) 表示一个learning bias?,而且当Ktrain != Ktest 时,测试的性能会迅速饱和(待看)。
standard training : 在实践中,