本文是LLM系列文章,针对《Seed-CTS: Unleashing the Power of Tree Search for Superior Performance in Competitive Coding Tasks》的翻译。
摘要
竞争级别的代码生成任务对当前最先进的大型语言模型(LLM)构成了重大挑战。例如,在LiveCodeBench Hard数据集上,O1 Mini和O1 Preview等模型实现了pass@1分别仅为0.366和0.143。虽然树搜索技术在数学和通用编码等领域已被证明是有效的,但它们在竞争级代码生成方面的潜力仍未得到充分探索。在这项工作中,我们提出了一种专门为代码生成设计的新的token级树搜索方法。利用Qwen2.5-Coder-32B-Instruct,我们的方法在LiveCodeBench Hard上实现了0.305的通过率,超过了pass@100GPT4o-0513的性能为0.245。此外,通过整合思维链(CoT)提示,我们将方法的性能提高到0.351,接近O1Mini的性能pass@1率。为了确保可重复性,我们在测试集上通过树搜索方法报告了每个问题所需的平均代数。我们的研究结果强调了树搜索在显著提高竞争级别代码生成任务性能方面的潜力。这为大规模合成具有挑战性的代码问题监督微调(SFT)数据开辟了新的可能性,推进了竞争级别的代码生成任务。