MIT开源Satori-SWE:如何训练小尺寸推理模型来解决复杂软件工程任务

青稞Talk:http://qingkeai.online/
原文:https://mp.weixin.qq.com/s/y2v8nIRVn4HEluLJgARcKg

Satori-SWE,一个旨在解决小尺寸语言模型(<70B)在复杂软件工程任务中性能瓶颈的系列工作。当前,这类模型相较于大型模型(>70B)表现不佳,且传统的 Test-Time Scaling 策略往往因需要生成大量样本而导致效率低下、成本高昂。

为应对这一挑战,我们提出了一种名为 “Evolutionary Test-Time Scaling” (EvoScale) 的新方法。EvoScale 的核心思想是将代码补丁(patch)的生成过程,从一次性的、低效的采样,转变为一个迭代式的“进化”过程。这种方法能以更少的样本数量,持续优化并生成高质量的解决方案。

Paper:Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering
Abs:https://arxiv.org/abs/2505.23604
HuggingFace:https://huggingface.co/Satori-reasoning
Github:https://github.com/satori-reasoning/Satori-SWE

实现 EvoScale 的关键在于我们设计的两阶段SFT流程(classical SFT 和 mutation SFT),以及后续的针对性RL流程。其中,mutation SFT和RL 专门训练模型学习如何根据先前生成的不完美答案,进行自我修正与改进,从而有效地引导模型在测试时进行“进化”。

实验结果证明了该方法的有效性:我们的 Satori-SWE-32B 模型,在极具挑战性的 SWE-Bench-Verified 基准上,以显著更低的样本复杂度,取得了与70B+ 级别模型相媲美的性能。

7月5日(周六)上午10:00,青稞Talk 第60期,新加坡科技设计大学博士生曾广韬,将直播分享《Satori-SWE:用 Evolutionary Test-Time Scaling 让小语言模型解决复杂软件工程》。

分享嘉宾

曾广韬,新加坡科技设计大学的四年级博士生,研究方向为 Large Language Model 以及 Reasoning;在ACL、EMNLP等顶级会议和期刊上,以第一作者或共同第一作者的身份发表了5+ 篇论文,其谷歌学术引用量超过1000次 。

主题提纲

Satori-SWE:用 Evolutionary Test-Time Scaling 让小语言模型解决复杂软件工程

1、小语言模型的性能瓶颈
2、EvoScale:从 patch 生成转变为迭代式“进化”过程
3、classical SFT、mutation SFT 和针对性 RL 流程解析
4、Satori-SWE-32B 模型性能验证

直播时间

7月5日(周六)上午10:00 - 11:00

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值