MIT开源Satori-SWE：如何训练小尺寸推理模型来解决复杂软件工程任务

原创已于 2025-07-01 14:24:11 修改 · 349 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #语言模型 #算法 #机器学习

于 2025-07-01 14:17:54 首次发布

青稞Talk 专栏收录该内容

82 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

青稞Talk：http://qingkeai.online/
原文：https://mp.weixin.qq.com/s/y2v8nIRVn4HEluLJgARcKg

Satori-SWE，一个旨在解决小尺寸语言模型（<70B）在复杂软件工程任务中性能瓶颈的系列工作。当前，这类模型相较于大型模型（>70B）表现不佳，且传统的 Test-Time Scaling 策略往往因需要生成大量样本而导致效率低下、成本高昂。

为应对这一挑战，我们提出了一种名为 “Evolutionary Test-Time Scaling” (EvoScale) 的新方法。EvoScale 的核心思想是将代码补丁（patch）的生成过程，从一次性的、低效的采样，转变为一个迭代式的“进化”过程。这种方法能以更少的样本数量，持续优化并生成高质量的解决方案。

Paper：Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering
Abs：https://arxiv.org/abs/2505.23604
HuggingFace：https://huggingface.co/Satori-reasoning
Github：https://github.com/satori-reasoning/Satori-SWE

实现 EvoScale 的关键在于我们设计的两阶段SFT流程（classical SFT 和 mutation SFT），以及后续的针对性RL流程。其中，mutation SFT和RL 专门训练模型学习如何根据先前生成的不完美答案，进行自我修正与改进，从而有效地引导模型在测试时进行“进化”。