大模型微调Fine-tuning

最新推荐文章于 2025-07-12 01:57:43 发布

原创

最新推荐文章于 2025-07-12 01:57:43 发布 · 926 阅读

CC 4.0 BY-SA版权

文章标签：

一、什么是大模型？

对大模型做一个直观的抽象，本质上，现在的大模型要解决的问题，就是一个序列数据转换的问题：

输入序列 X = [x1, x2, ..., xm]，输出序列Y = [y1, y2, …, yn]，X和Y之间的关系是：Y = WX。

“大模型”这个词：“大”是指用于训练模型的参数非常多，多达千亿、万亿；而“模型”指的就是上述公式中的矩阵W。

在这里，矩阵W就是通过机器学习，得出的用来将X序列，转换成Y序列的权重参数组成的矩阵。

对大模型进行微调（Fine-tuning）是为了让通用的预训练模型更好地适应特定任务或领域的需求，从而在具体应用中提升性能。

微调是预训练模型落地到实际应用的关键步骤，通过“ 通用基础+专业适配”的平衡，以较低成本释放大模型的潜力。

微调的最终目的，是能够在可控成本的前提下，尽可能地提升大模型在特定领域的能力。

1、适应特定任务

2、提升性能

3、数据效率高

4、保留通用知识

5、适应领域术语和风格

6、解决低资源语言或任务

7、个性化需求

何时不需要微调？

任务足够通用（如普通文本分类），且预训练模型表现已达标。

缺乏标注数据或计算资源，此时可用零样本（Zero-shot）或小样本学习（Few-shot）。

全参数微调FFT（ Full Fine Tuning）：调整模型所有参数，适合数据量较大的场景。

轻量级微调PEFT（ Parameter-Efficient Fine Tuning）：如LoRA（低秩适应）、Adapter模块，仅训练少量参数，节省计算资源。

提示微调（Prompt-tuning）：通过调整输入提示（Prompt）引导模型输出。

全参数微调FFT会带来一些问题：

一个是 训练成本比较高，因为微调的参数量跟预训练的是一样的多的；
一个是叫 灾难性遗忘( Catastrophic Forgetting)，用特定训练数据去微调可能会把这个领域的表现变好，但也可能会把原来表现好的别的领域的能力变差。

PEFT主要想解决的问题，就是FFT存在的上述两个问题， PEFT也是目前比较主流的微调方案。

从训练数据的来源、以及训练的方法的角度， 大模型的微调有以下几条技术路线：

一个是监督式微调SFT(Supervised Fine Tuning)，这个方案主要是用人工标注的数据，用传统机器学习中监督学习的方法，对大模型进行微调；
一个是基于人类反馈的强化学习微调RLHF(Reinforcement Learning with Human Feedback)，这个方案的主要特点是把人类的反馈，通过强化学习的方式，引入到对大模型的微调中去，让大模型生成的结果，更加符合人类的一些期望；
还有一个是基于AI反馈的强化学习微调RLAIF (Reinforcement Learning with AI Feedback)，这个原理大致跟RLHF类似，但是反馈的来源是AI。这里是想解决反馈系统的效率问题，因为收集人类反馈，相对来说成本会比较高、效率比较低。