目前传统的 Fine-Tuning 有两个痛点问题:参考Prompt-Tuning 深度解读一种新的微调范式
- 降低语义差异(Bridge the gap between Pre-training and Fine-tuning) :预训练任务主要以 Masked Language Modeling(MLM)为主,而下游任务(DownStream Task)则重新引入新的训练参数,因此两个阶段的目标通常有较大差异。因此需要解决如何缩小Pre-training和Fine-tuning两个阶段目标差距过大的问题;
- 避免过拟合(Overfitting of the head) :由于在 Fine-Tuning 阶段需要新引入额外的参数以适配相应的任务需要,因此在样本数量有限的情况容易发生过拟合,降低了模型的泛化能力。因此需要面对预训练语言模型的过拟合问题。
1 全量微调
全量微调(Full Fine Tuning, FFT):对全量的参数进行训练,用特定领域的数据对大模型的训练效果会很好。
但全量微调 FFT 存在下面两个问题:
- 训练的成本会比较高,因为微调的参数量跟预
大模型微调深度解析:Prompt-Tuning与参数高效策略

本文探讨了大模型微调中的问题,如语义差异和过拟合,介绍了全量微调、Prompt-Tuning、PrefixTuning等参数高效微调方法,以及监督式、强化学习微调的不同路线,旨在优化成本并提升模型在特定领域的性能。
最低0.47元/天 解锁文章
776

被折叠的 条评论
为什么被折叠?



