Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution
code:https://github.com/AnanyaKumar/transfer_learning
paper:https://arxiv.org/abs/2202.10054
摘要
将预训练模型转移到下游任务通常使用微调和线性探测(只更新head的最后一个线性层)两种方法。
微调可以提高同分布内的准确性,然而当预训练特征分布偏移较大时,在分布外数据中微调的效果比线性探测更差。
本文证明了使用固定或随机head初始化,微调的OOD误差很高,因为微调也会改变网络的其余部分,扭曲预训练的特征。本文的分析为先进行线性探测后完全微调的两部策略,能结合微调和线性探测的优点。
介绍
预训练模型能提高从头训练的准确性,但是对训练过程中看不见的数据分布进行测试也十分重要。在使用预训练模型后,两种流行的迁移方法是微调和线性探测。在ID中微调精度更高,在OOD中线性探测精度更高
给定一个特征提取器,添加一个随机初始化的head将特征映射到输出,(a)微调所有模型参数(b)线性探测,冻结特征提取器仅训练头部。(c)表明, 微调会使预训练参数失真,导致较差的OOD精度,但是线性探测可以解决这一问题,本文提出的LP-FT策略可以获得更好的ID和OOD精度。
设置
给定一些分布中采样的训练样本,对分布中的性能进行评估,在新分布中提取测试样本评估分类器分布外性能
微调会扭曲预训练特征
to be continued…