Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models

828 篇文章

已下架不支持订阅

本文介绍了自玩微调(SPIN)方法,该方法允许弱语言模型(LLM)在没有额外人工注释数据的情况下进化为强LLM。通过与自身实例对弈,LLM生成训练数据并优化策略。理论和实验表明,SPIN能显著提高LLM在多种基准测试中的性能,甚至超越了直接优化方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models》的翻译。

摘要

通过监督微调(SFT)利用人工注释数据的能力对于推进大型语言模型(LLM)至关重要。在本文中,我们深入研究了在不需要获取额外的人工注释数据的情况下,从弱LLM中发展出强LLM的前景。我们提出了一种新的微调方法,称为自玩微调(SPIN),它从有监督的微调模型开始。SPIN的核心是一种自玩机制,LLM通过与自身实例进行游戏来改进其能力。更具体地说,LLM从之前的迭代中生成自己的训练数据,通过从人工注释数据中识别这些自生成的响应来完善其策略。我们的方法将LLM从一个新生的模型逐步提升为一个强大的模型,释放了SFT的人类注释演示数据的全部潜力。理论上,我们证明了只有当LLM策略与目标数据分布一致时,才能实现我们方法的训练目标函数的全局最优。根据经验,我们在几个基准数据集上评估了我们的方法,包括HuggingFace Open LLM排行榜、MT Bench和Big Bench的数据集。我们的结果表明,SPIN可以显著提高LLM在各种基准测试中的性能,甚至优于通过补充额外GPT-4偏好数据的直接偏好优化(DPO)训练的模型。这揭示了自我游戏的前景,使L

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值