文章主要内容和创新点
主要内容
本文提出了一种新的反射生成形式(Reflective Generative Form),并基于此开发了反射生成模型MetaStone-S1,旨在通过测试时缩放(Test-Time Scaling, TTS)技术高效选择高质量的推理轨迹。该模型的核心设计包括:
- 共享骨干网络:政策模型(policy model)与过程奖励模型(Process Reward Model, PRM)共享骨干网络,减少参数冗余,实现推理轨迹的生成与评分一体化。
- 自监督过程奖励模型(SPRM):通过自监督训练消除对过程级标注的依赖,仅需结果级标注即可优化,降低标注成本。
- 可控推理模式:支持高、中、低三种推理模式,可通过控制思考长度适配不同场景。
实验结果显示,32B参数的MetaStone-S1在数学推理(AIME24/25)、代码生成(LiveCodeBench)和中文推理(C-Eval)等基准测试中,性能接近甚至超过OpenAI o3-mini系列,且已开源(https://github.com/MetaStone-AI/MetaStone-S1)。
创新点
- 新的反射生成形式:系统梳理现有TTS范式,定义了用于高质量推理轨迹选择的反射生成形式,实现单一网络同时完成推理轨迹预测与选择(无需过程级标注)。
- 全面的机制分
订阅专栏 解锁全文
392

被折叠的 条评论
为什么被折叠?



