大模型微调（fine-tunning)

最新推荐文章于 2025-02-17 16:40:30 发布

是攸宁啊

最新推荐文章于 2025-02-17 16:40:30 发布

阅读量1.7k

点赞数 26

文章标签：人工智能

本文链接：https://blog.youkuaiyun.com/Msc30839573/article/details/136152126

版权

用好大模型的第一个层次，是掌握提示词工程(Prompt Engineering) ，第二个层次，是大模型的微调(Fine Tuning) ，这也是今天这篇文章的主题。

补充：prompt engineering

Prompt Engineering（提示工程）是一种技术方法，用于设计和构建基于语言模型的对话系统。它的目标是通过设置合适的提示（prompt）或问题，来引导模型生成期望的回复或响应。

在对话系统中，通常需要指定用户的输入（prompt）以及期望的输出。Prompt Engineering 的思想是利用这些输入和输出的组合来设计一个能够产生符合预期回复的模型。

Prompt Engineering 可以涉及以下几个方面：

1. 提示设计：选择合适的提示文本，旨在明确指导模型生成所需的回复。这可能包括提供上下文、设定约束或规则，或者通过提问方式引导模型产生更具信息量的回答。

2. 数据集构建：根据设计好的提示和期望的输出，构建训练数据集。这通常需要人工标注或生成合适的输入和输出对。

3. 调整模型：根据特定的提示和目标，对模型进行微调或训练，以产生更准确、符合预期的回复。

Prompt Engineering 是一项重要的技术，可以帮助提高语言模型的可控性和效果。通过精心设计的提示，我们可以引导模型生成更加准确和有用的回答，提升对话系统的质量和用户体验。

一、为什么要对大模型微调

通常，要对大模型进行微调，有以下一些原因：

1⃣️第一个原因是，因为大模型的参数量非常大，训练成本非常高，每家公司都去从头训练一个自己的大模型，这个事情的性价比非常低；

2⃣️第二个原因是，Prompt Engineering的方式是一种相对来说容易上手的使用大模型的方式，但是它的缺点也非常明显。因为通常大模型的实现原理，都会对输入序列的长度有限制，Prompt Engineering 的方式会把Prompt搞得很长。

越长的Prompt，大模型的推理成本越高，因为推理成本是跟Prompt长度的平方正向相关的。

另外，Prompt太长会因超过限制而被截断，进而导致大模型的输出质量打折扣，这也是一个非常严重的问题。

对于个人使用者而言，如果是解决自己日常生活、工作中的一些问题，直接用Prompt Engineering的方式，通常问题不大。

但对于对外提供服务的企业来说，要想在自己的服务中接入大模型的能力，推理成本是不得不要考虑的一个因素，微调相对来说就是一个更优的方案。

3⃣️第三个原因是，Prompt Engineering的效果达不到要求，企业又有比较好的自有数据，能够通过自有数据，更好的提升大模型在特定领域的能力。这时候微调就非常适用。

4⃣️第四个原因是，要在个性化的服务中使用大模型的能力，这时候针对每个用户的数据，训练一个轻量级的微调模型，就是一个不错的方案。

5⃣️第五个原因是，数据安全的问题。如果数据是不能传递给第三方大模型服务的，那么搭建自己的大模型就非常必要。通常这些开源的大模型都是需要用自有数据进行微调，才能够满足业务的需求，这时候也需要对大模型进行微调。

二、如何对大模型进行微调

FFT的原理，就是用特定的数据，对大模型进行训练，将W变成W`，W`相比W ，最大的优点就是上述特定数据领域的表现会好很多。

但FFT也会带来一些问题，影响比较大的问题，主要有以下两个：

一个是训练的成本会比较高，因为微调的参数量跟预训练的是一样的多的；
一个是叫灾难性遗忘(Catastrophic Forgetting)，用特定训练数据去微调可能会把这个领域的表现变好，但也可能会把原来表现好的别的领域的能力变差。

PEFT主要想解决的问题，就是FFT存在的上述两个问题，PEFT也是目前比较主流的微调方案。

监督式微调SFT(Supervised Fine Tuning) ，这个方案主要是用人工标注的数据，用传统机器学习中监督学习的方法，对大模型进行微调；
基于人类反馈的强化学习微调RLHF(Reinforcement Learning with Human Feedback) ，这个方案的主要特点是把人类的反馈，通过强化学习的方式，引入到对大模型的微调中去，让大模型生成的结果，更加符合人类的一些期望；
基于AI反馈的强化学习微调RLAIF(Reinforcement Learning with AI Feedback) ，这个原理大致跟RLHF类似，但是反馈的来源是AI。这里是想解决反馈系统的效率问题，因为收集人类反馈，相对来说成本会比较高、效率比较低。

不同的分类角度，只是侧重点不一样，对同一个大模型的微调，也不局限于某一个方案，可以多个方案一起。

微调的最终目的，是能够在可控成本的前提下，尽可能地提升大模型在特定领域的能力。

三、一些PEFT技术