目前传统的 Fine-Tuning 有两个痛点问题:参考Prompt-Tuning 深度解读一种新的微调范式
- 降低语义差异(Bridge the gap between Pre-training and Fine-tuning) :预训练任务主要以 Masked Language Modeling(MLM)为主,而下游任务(DownStream Task)则重新引入新的训练参数,因此两个阶段的目标通常有较大差异。因此需要解决如何缩小Pre-training和Fine-tuning两个阶段目标差距过大的问题;
- 避免过拟合(Overfitting of the head) :由于在 Fine-Tuning 阶段需要新引入额外的参数以适配相应的任务需要,因此在样本数量有限的情况容易发生过拟合,降低了模型的泛化能力。因此需要面对预训练语言模型的过拟合问题。
1 全量微调
全量微调(Full Fine Tuning, FFT):对全量的参数进行训练,用特定领域的数据对大模型的训练效果会很好。