本文是LLM系列文章,针对《Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models》的翻译。
摘要
通过监督微调(SFT)利用人工注释数据的能力对于推进大型语言模型(LLM)至关重要。在本文中,我们深入研究了在不需要获取额外的人工注释数据的情况下,从弱LLM中发展出强LLM的前景。我们提出了一种新的微调方法,称为自玩微调(SPIN),它从有监督的微调模型开始。SPIN的核心是一种自玩机制,LLM通过与自身实例进行游戏来改进其能力。更具体地说,LLM从之前的迭代中生成自己的训练数据,通过从人工注释数据中识别这些自生成的响应来完善其策略。我们的方法将LLM从一个新生的模型逐步提升为一个强大的模型,释放了SFT的人类注释演示数据的全部潜力。理论上,我们证明了只有当LLM策略与目标数据分布一致时,才能实现我们方法的训练目标函数的全局最优。根据经验,我们在几个基准数据集上评估了我们的方法,包括HuggingFace Open LLM排行榜、MT Bench和Big Bench的数据集。我们的结果表明,SPIN可以显著提高LLM在各种基准测试中的性能,甚至优于通过补充额外GPT-4偏好数据的直接偏好优化(DPO)训练的模型。这揭示了自我游戏的前景,使L