论文《s1: Simple test-time scaling》核心总结
核心方法论
-
s1K数据集构建
- 筛选标准:从59K初始数据集通过三阶段过滤(质量→难度→多样性)得到1,000个高价值数学/科学推理样本。
- 关键验证:相比随机采样/仅长序列选择,三阶段过滤性能提升高达30%(AIME24任务)。
- 示例来源:涵盖概率论PhD考题、量化面试难题(如PuzzledQuant)、奥赛题等多领域问题。
-
预算强制(Budget Forcing)
- 动态调整:
- 终止生成:若模型提前生成结束符,强制追加"Wait"触发重新思考(图3示例显示可修正错误)。
- 延长窗口:通过允许扩展生成思考路径,平均提升AIME24准确率7%(50%→57%)。
- 控制指标:相比条件长度控制(如Token/Step-Level),预算强制达到100%可控性,且保留正向扩展斜率。
- 动态调整: