Test-Time Scaling with Reflective Generative Model

文章主要内容和创新点

主要内容

本文提出了一种新的反射生成形式(Reflective Generative Form),并基于此开发了反射生成模型MetaStone-S1,旨在通过测试时缩放(Test-Time Scaling, TTS)技术高效选择高质量的推理轨迹。该模型的核心设计包括:

  1. 共享骨干网络:政策模型(policy model)与过程奖励模型(Process Reward Model, PRM)共享骨干网络,减少参数冗余,实现推理轨迹的生成与评分一体化。
  2. 自监督过程奖励模型(SPRM):通过自监督训练消除对过程级标注的依赖,仅需结果级标注即可优化,降低标注成本。
  3. 可控推理模式:支持高、中、低三种推理模式,可通过控制思考长度适配不同场景。

实验结果显示,32B参数的MetaStone-S1在数学推理(AIME24/25)、代码生成(LiveCodeBench)和中文推理(C-Eval)等基准测试中,性能接近甚至超过OpenAI o3-mini系列,且已开源(https://github.com/MetaStone-AI/MetaStone-S1)。

创新点
  1. 新的反射生成形式:系统梳理现有TTS范式,定义了用于高质量推理轨迹选择的反射生成形式,实现单一网络同时完成推理轨迹预测与选择(无需过程级标注)。
  2. 全面的机制分
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值