语言模型微调简述

附加说明:此文为译文,原文链接:原文

以下是对语言模型微调的(简要)总结,涵盖了现有的各种方法、它们的目的以及我们对其工作原理的了解。

微调技术

“微调” 一词指的是对预训练模型进行进一步训练。就大型语言模型(LLMs)而言,这意味着我们获取一个预训练的基础模型,并对其进行更多训练。然而,进行这种训练的方式多种多样,这使得微调的概念极其模糊。这个单一术语可以指代多种不同的技术,例如:

  • 继续预训练(Continued pretraining)
  • 指令微调(Instruction tuning)
  • 有监督微调(Supervised fine tuning,SFT)
  • 基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)或直接偏好优化(Direct Preference Optimization,DPO)

这些技术的目标是什么?

对于语言模型来说,在进行微调时,从业者通常有两个主要目标:

  • 知识注入(Knowledge injection):教会模型在解决问题时如何利用新的知识来源(在预训练期间不存在的知识)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值