Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models

最新推荐文章于 2025-04-09 15:48:38 发布

UnknownBody

最新推荐文章于 2025-04-09 15:48:38 发布

阅读量794

点赞数 6

文章标签：语言模型人工智能 python

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/135938171

版权

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文介绍了自玩微调（SPIN）方法，该方法允许弱语言模型（LLM）在没有额外人工注释数据的情况下进化为强LLM。通过与自身实例对弈，LLM生成训练数据并优化策略。理论和实验表明，SPIN能显著提高LLM在多种基准测试中的性能，甚至超越了直接优化方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是LLM系列文章，针对《Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models》的翻译。

摘要

通过监督微调（SFT）利用人工注释数据的能力对于推进大型语言模型（LLM）至关重要。在本文中，我们深入研究了在不需要获取额外的人工注释数据的情况下，从弱LLM中发展出强LLM的前景。我们提出了一种新的微调方法，称为自玩微调（SPIN），它从有监督的微调模型开始。SPIN的核心是一种自玩机制，LLM通过与自身实例进行游戏来改进其能力。更具体地说，LLM从之前的迭代中生成自己的训练数据，通过从人工注释数据中识别这些自生成的响应来完善其策略。我们的方法将LLM从一个新生的模型逐步提升为一个强大的模型，释放了SFT的人类注释演示数据的全部潜力。理论上，我们证明了只有当LLM策略与目标数据分布一致时，才能实现我们方法的训练目标函数的全局最优。根据经验，我们在几个基准数据集上评估了我们的方法，包括HuggingFace Open LLM排行榜、MT Bench和Big Bench的数据集。我们的结果表明，SPIN可以显著提高LLM在各种基准测试中的性能，甚至优于通过补充额外GPT-4偏好数据的直接偏好优化（DPO）训练的模型。这揭示了自我游戏的前景，使L

了解本专栏