论文《s1: Simple test-time scaling》核心总结

《s1: Simple test-time scaling》论文核心总结

最新推荐文章于 2025-12-02 15:55:42 发布

原创

最新推荐文章于 2025-12-02 15:55:42 发布 · 1.1k 阅读

CC 4.0 BY-SA版权

文章标签：

s1K数据集构建
- 筛选标准：从59K初始数据集通过三阶段过滤（质量→难度→多样性）得到1,000个高价值数学/科学推理样本。
- 关键验证：相比随机采样/仅长序列选择，三阶段过滤性能提升高达30%（AIME24任务）。
- 示例来源：涵盖概率论PhD考题、量化面试难题（如PuzzledQuant）、奥赛题等多领域问题。
预算强制（Budget Forcing）
- 动态调整：
  - 终止生成：若模型提前生成结束符，强制追加"Wait"触发重新思考（图3示例显示可修正错误）。
  - 延长窗口：通过允许扩展生成思考路径，平均提升AIME24准确率7%（50%→57%）。
- 控制指标：相比条件长度控制（如Token/Step-Level），预算强制达到100%可控性，且保留正向扩展斜率。