从 TTS 到 TTRL：无标签数据强化学习探索与展望

最新推荐文章于 2025-12-20 19:32:34 发布

原创最新推荐文章于 2025-12-20 19:32:34 发布 · 640 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

青稞Talk 专栏收录该内容

82 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

原文：https://mp.weixin.qq.com/s/LkMt6FNTFsRyw79fY4LKdQ

在预训练 Scaling Law之后，测试时扩展（Test-time Scaling, TTS）已成为提升大模型推理能力的关键。OpenAI o1与DeepSeek R1等模型通过强化学习（RL）进行推理的范式，充分展现了TTS的潜力。

然而，推理模型的性能上限仍深受基础模型（其架构与预训练数据）的制约。当前，标注数据的匮乏限制RL效果。如何在无显式标签的条件下进行强化学习，成为进一步释放推理模型潜能的核心。

在最新的研究中，来自清华大学和上海人工智能实验室的研究员提出了一种新方法 —— 测试时强化学习（Test-Time Reinforcement Learning，TTRL），该方法能够在无标注数据上对 LLM 进行强化学习训练。

论文标题：TTRL: Test-Time Reinforcement Learning
论文地址：https://arxiv.org/abs/2504.16084
GitHub：https://github.com/PRIME-RL/TTRL
HuggingFace：https://huggingface.co/papers/2504.16084

TTRL的核心挑战在于推理过程中，如何在缺乏真实标签的情况下进行有效的奖励估计。研究员发现，TTS中的多数投票等常用策略能产生出乎意料的有效奖励信号，足以驱动RL训练。

TTRL 通过利用预训练模型中的先验知识，使 LLM 具备自我演化的能力。实验证明，TTRL 在多种任务和模型上都能持续提升性能：在仅使用未标注测试数据的情况下，TTRL 将 Qwen-2.5-Math-7B 在 AIME 2024 任务中的 pass@1 指标提升了约 159%。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

TTRL标志着向“经验时代”的RL迈出了初步探索，使模型得以在缺少人类标注的条件下实现自我探索与进化。展望未来，通过环境交互与多智能体协同，在真实任务中持续提升模型能力，将是“经验时代”强化学习发展的关键方向。

5月14日20:00点，青稞Talk第48期，TTRL 作者、清华大学博士生张开颜，将直播分享《从 TTS 到 TTRL：无标签数据强化学习探索与展望》。

本期Talk 张开颜博士将聚焦无标签数据上进行强化学习——即测试时强化学习（TTRL）的探索，探讨TTS与RL推理的关系，详述TTRL的方法与意义，并从协同与交互的视角展望RL经验时代。

分享嘉宾

张开颜，清华大学三年级博士生，导师为周伯文教授。研究方向为大语言模型测试时扩展（Test-time Scaling）、强化学习和多智能体协同技术。在NeurIPS,ICLR,ICML,ACL,EMNLP,COLM等国际人工智能顶级会议与期刊上发表论文十余篇。

主题提纲

从 TTS 到 TTRL：无标签数据强化学习探索与展望

1、强化学习推理与 TTS 的关系
2、TTRL：无标签数据的测试时强化学习方法
3、TTRL 的有效性及局限性讨论
4、协同与交互视角下的 RL 经验时代

直播时间

5月14日20:00 - 21:00

您可能感兴趣的与本文相关的镜像

Qwen3-VL-8B

图文对话

Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型，这一代在各个方面都进行了全面升级：更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力，以及更强的代理交互能力