论文阅读《Partial Is Better Than All: Revisiting Fine-tuning Strategy for Few-shot Learning》

最新推荐文章于 2024-09-07 16:00:00 发布

原创

最新推荐文章于 2024-09-07 16:00:00 发布 · 1k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

这篇博客探讨了在迁移学习中，全层微调和仅微调头部可能存在的问题，提出了PartialTransfer方法，通过遗传算法寻找最优层间学习率。研究发现，对于base类和novel类差异较大的情况，部分迁移能有效提高精度。此外，还介绍了BatchNorm和GroupNorm在小样本情况下的影响，以及DropBlock在防止过拟合中的作用。LabelSmoothing作为一种正则化技术，改善了交叉熵损失函数在应对标注噪声时的表现。

Background ＆ Motivation

基于元学习、度量学习或者迁移学习的方法大多数都依赖在 base 类上训练的 pre-trained knowledge，之后的做法都大同小异：冻结 backbone，利用 Support Set 直接微调或者利用度量函数来微调网络的 Head 部分。

Motivation 是迁移学习中直接将 base 类数据训练出的网络参数迁移到 novel 类不是最优的办法，因为可能会存在“偏见”或者“阻碍”对 novel 类的检测/分类。尽管 base 类和 novel 类的数据域特征差别没有很大，但还是很可能影响精度。因此提出了 Partial Transfer（P-Transfer）部分迁移的范式。Meta-SGD 和 MAML++ 也对不同层的网络采用了不同的学习率，但都是基于 MAML。