AI调教秘籍|3步让通用大模型秒变你的专属助手!

课程来源:https://www.coursera.org/learn/generative-ai-with-llms/
by DeepLearning.AI & Amazon Web Services

现有模型的局限性
一些模型能识别提示中的指令并执行零样本推理,而较小的大语言模型可能无法执行任务。包含示例(单样本或少样本推理)能帮助模型识别任务,但对小模型效果不佳,且占用上下文窗口空间。

微调方法介绍
微调是一种监督学习过程,使用标记示例数据集更新大语言模型的权重,以提高其在特定任务上生成优质回复的能力。指令微调是一种有效的策略,使用展示如何响应特定指令的示例来训练模型。

指令微调示例
例如,指令为 “classify this review”,期望的回复是 “sentiment positive” 或 “sentiment negative” 开头的文本字符串。若要提升模型的总结能力,训练数据集包含以 “summarize the following text” 开头的示例;若提升翻译能力,则包含 “translate this sentence” 的指令示例。

全量微调
更新模型所有权重的指令微调称为全量微调,会产生一个权重更新后的新模型版本。全量微调需足够内存和计算资源,可借助上周学习的内存优化和并行计算策略。

指令微调步骤

  1. 准备训练数据:有许多公开数据集,虽多数未按指令格式,但开发者已组装提示模板库,可将现有数据集转换为指令提示数据集。如使用亚马逊产品评论数据集,通过提示模板将原始评论转换为包含指令和示例的提示。
  2. 划分数据集:与标准监督学习一样,将数据集划分为训练集、验证集和测试集。
  3. 微调过程:从训练数据集中选择提示并传递给大语言模型,模型生成回复。将回复与训练数据中的指定回复比较,利用标准交叉熵函数计算两个标记分布间的损失,通过反向传播更新模型权重。
  4. 评估模型:使用验证集进行评估得到验证准确率,微调完成后用测试集评估得到测试准确率。

总结

微调后的基础模型(指令模型)在感兴趣的任务上表现更好,如今指令微调是微调大语言模型最常见的方式,听到 “微调” 通常指指令微调。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值