【大模型】模型微调(非常详细)从入门到精通,看这一篇就够了

本文结合示例简单讨论如何使用LoRA微调 (FT) 预训练的 LLM。LoRA原理将在接下来的文章里详细讨论。

为何要模型微调

**「微调」**是利用预训练LLM并训练至少一个内部参数(即权重),通常是使用预训练好的通用基础模型(例如GPT-3)转换为特定用例(例如 ChatGPT)的专用模型。

与完全依赖**「监督训练」**的模型做提示词工程相比,微调后的模型可以实现更好的性能,同时需要(远)更少的手动标记示例(优点之一)。

虽然在提示工程的帮助下,严格的**「自监督基础模型」**可以在多种任务中表现较好的性能,但这些基础模型仍然是单词预测器,可能生成不完全有用或不准确的结果。由于LLM是有限上下文窗口(context window),所以这些模型在需要大量特定领域知识的任务上性能有限。微调模型可以通过在微调过程中“学习”这些特定领域信息来避免此问题。这也避免使用额外的上下文填充提示,从而降低推理成本。

例如,比较 davinci(基于GPT-3模型)和 text-davinci-003(微调模型)如下。

text-davinci-003 是对齐微调(alignment tuning[1]),旨在使 LLM 的响应更有帮助、更诚实、更无害。

微调不仅可以提高基础模型的性能,而且针对较小的预训练模型进行特定任务集的微调通常可以胜过较大的模型。OpenAI 用他们的第一代“InstructGPT[2]”模型已证明,1.3B参数 InstructGPT 模型的完成率优于175B参数 GPT-3 基本模型。

微调的3种方法

自监督学习

自监督学习包括基于训练数据的固有结构训练模型。在LLM的上下文中通常是给定一系列单词(或更准确地说是标记),预测下一个单词(标记)。目前的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值