Seed-CTS: Unleashing the Power of Tree Search for Superior Performance in Competitive Coding Tasks

本文是LLM系列文章,针对《Seed-CTS: Unleashing the Power of Tree Search for Superior Performance in Competitive Coding Tasks》的翻译。

Seed-CTS:释放树搜索的力量,在竞争性编码任务中获得卓越性能

摘要

竞争级别的代码生成任务对当前最先进的大型语言模型(LLM)构成了重大挑战。例如,在LiveCodeBench Hard数据集上,O1 Mini和O1 Preview等模型实现了pass@1分别仅为0.366和0.143。虽然树搜索技术在数学和通用编码等领域已被证明是有效的,但它们在竞争级代码生成方面的潜力仍未得到充分探索。在这项工作中,我们提出了一种专门为代码生成设计的新的token级树搜索方法。利用Qwen2.5-Coder-32B-Instruct,我们的方法在LiveCodeBench Hard上实现了0.305的通过率,超过了pass@100GPT4o-0513的性能为0.245。此外,通过整合思维链(CoT)提示,我们将方法的性能提高到0.351,接近O1Mini的性能pass@1率。为了确保可重复性,我们在测试集上通过树搜索方法报告了每个问题所需的平均代数。我们的研究结果强调了树搜索在显著提高竞争级别代码生成任务性能方面的潜力。这为大规模合成具有挑战性的代码问题监督微调(SFT)数据开辟了新的可能性,推进了竞争级别的代码生成任务。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值