本文是LLM系列文章,针对《Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling》的翻译。
1B LLM能否超越405B LLM?重新思考计算最优测试时间尺度
摘要
测试时间缩放(TTS)是一种在推理阶段使用额外计算来提高大型语言模型(LLM)性能的重要方法。然而,目前的研究并没有系统地分析政策模型、过程奖励模型(PRM)和问题难度是如何影响TTS的。缺乏分析限制了对TTS方法的理解和实际应用。在本文中,我们关注两个核心问题:(1)在不同的策略模型、PRM和问题难度级别上,扩展测试时间计算的最佳方法是什么?(2) 扩展计算在多大程度上可以提高LLM在复杂任务上的性能,通过这种方法,较小的语言模型能否超越较大的语言模型?通过对MATH-500和具有挑战性的AIME24任务的综合实验,我们得出以下结论:(1)计算最优TTS策略在很大程度上取决于策略模型、PRM和问题难度的选择。(2) 通过我们的计算最优TTS策略,极小的策略模型可以超越较大的模型。例如,在MATH-500上,1B LLM可以超过405B LLM。此外,在MATH-500和AIME24上,0.5B LLM优于GPT-4o,3B LLM优于405B LLM&