迁移学习 fine tune(微调) 模型蒸馏

最新推荐文章于 2025-06-06 15:15:46 发布

原创

最新推荐文章于 2025-06-06 15:15:46 发布 · 1.6k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文探讨了迁移学习如何通过预训练模型参数迁移来提升模型训练效果，特别是在数据有限的情况下。模型蒸馏作为分支之一，通过教师模型的知识传递给学生模型，以压缩并增强模型性能。微调（fine-tuning）作为一种调参手段，通过较低学习率对预训练模型的部分或全部层进行训练，以适应新任务。根据数据量，可以选择只调整最后一层或部分层的权重，甚至结合多任务学习来优化模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

迁移学习: 把预训练模型参数迁移到新的模型上，帮助模型训练。

迁移学习: 把预训练模型参数迁移到新的模型上，帮助模型训练。

应用场景

数据集中只有少量的label data，直接训练效果很差，容易过拟合。

分支

模型蒸馏/压缩 Distillation

就是用户停留时长、（广告）曝光比列之类的后验特征统计的特征，这种信号强，只能离线获取的特征【线上无法获得】加入模型中去蒸馏

离线环境下，会同时训练两个模型：一个学生模型和一个教师模型。其中教师模型额外利用了优势特征，则准确率更高。将教师模型蒸馏出来的知识传递给学生模型，辅助其训练，提升学生的准确率。
线上服务时，只用学生模型进行部署，由于输入中不依赖优势特征，则保证了线上线下特征的一致性。
在这里插入图片描述

作用

压缩模型体积

手段

fine tune/ fine tuning：微调，一种调参手段

y=wx，若w实际为5。
如果w初始化为0，需不断反向传播更新后得到5。
但直接初始化为4.7【相当于给一个pre-trained model】，之后fine tune【后面更新w的过程】,能很快得到5

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。