论文《s1: Simple test-time scaling》核心总结

论文《s1: Simple test-time scaling》核心总结


核心方法论
  1. s1K数据集构建

    • 筛选标准:从59K初始数据集通过三阶段过滤(质量→难度→多样性)得到1,000个高价值数学/科学推理样本。
    • 关键验证:相比随机采样/仅长序列选择,三阶段过滤性能提升高达30%(AIME24任务)。
    • 示例来源:涵盖概率论PhD考题、量化面试难题(如PuzzledQuant)、奥赛题等多领域问题。
  2. 预算强制(Budget Forcing)

    • 动态调整
      • 终止生成:若模型提前生成结束符,强制追加"Wait"触发重新思考(图3示例显示可修正错误)。
      • 延长窗口:通过允许扩展生成思考路径,平均提升AIME24准确率7%(50%→57%)。
    • 控制指标:相比条件长度控制(如Token/Step-Level),预算强制达到100%可控性,且保留正向扩展斜率。

验证结果
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值