Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution

研究发现,尽管微调能提升同分布任务的准确性,但在分布外数据上,它可能比线性探测表现更差。微调可能导致预训练特征的扭曲,影响泛化能力。文章提出,先进行线性探测再微调的策略可能兼顾两者优点,改善ID和OOD的精度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution

code:https://github.com/AnanyaKumar/transfer_learning
paper:https://arxiv.org/abs/2202.10054

摘要

将预训练模型转移到下游任务通常使用微调和线性探测(只更新head的最后一个线性层)两种方法。
微调可以提高同分布内的准确性,然而当预训练特征分布偏移较大时,在分布外数据中微调的效果比线性探测更差。
本文证明了使用固定或随机head初始化,微调的OOD误差很高,因为微调也会改变网络的其余部分,扭曲预训练的特征。本文的分析为先进行线性探测后完全微调的两部策略,能结合微调和线性探测的优点。

介绍

预训练模型能提高从头训练的准确性,但是对训练过程中看不见的数据分布进行测试也十分重要。在使用预训练模型后,两种流行的迁移方法是微调和线性探测。在ID中微调精度更高,在OOD中线性探测精度更高
在这里插入图片描述给定一个特征提取器,添加一个随机初始化的head将特征映射到输出,(a)微调所有模型参数(b)线性探测,冻结特征提取器仅训练头部。(c)表明, 微调会使预训练参数失真,导致较差的OOD精度,但是线性探测可以解决这一问题,本文提出的LP-FT策略可以获得更好的ID和OOD精度。

设置

给定一些分布中采样的训练样本,对分布中的性能进行评估,在新分布中提取测试样本评估分类器分布外性能

微调会扭曲预训练特征

to be continued…

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值