腾讯优图实验室提出的Training-Free GRPO是一种无需更新模型参数、仅通过"上下文学习"提升LLM代理性能的新方法。它通过维护经验知识库,让模型总结成功与失败的经验,在后续任务中做出更优决策。这种方法成本低、泛化能力强,在数学推理和网络搜索任务中表现优异,为资源有限场景提供了高效优化LLM代理的路径。
大型语言模型(LLM)如GPT-4、DeepSeek等,已经在通用任务上表现出色,但在专业领域(如数学推理、网络搜索)中,它们常常表现不佳。这是因为这些任务需要模型灵活使用外部工具(如计算器、浏览器),并结合领域特定的提示策略。传统方法通常通过“微调”模型参数来适应新任务,但这需要大量标注数据、昂贵的计算资源,并且容易导致模型“过拟合”——即在新任务上表现差强人意。

- 论文:Training-Free GRPO: Efficient RL for Large Language Models
- 链接:https://arxiv.org/pdf/2510.08191
正是在这样的背景下,腾讯优图实验室提出了Training-Free Group Relative Policy Optimization。这是一种无需更新模型参数、仅通过“上下文学习”就能提升LLM代理性能的新方法。它像是一位“经验丰富的教练”,通过总结成功与失败的经验,指导模型在后续任务中做出更优决策,而无需重新训练模型本身。这种方法不仅成本极低,还能保持模型原有的泛化能力,成为传统强化学习方法的有力替代。
研究动机:告别“调参”时代
传统强化学习方法(如GRPO)通过更新模型参数来优化策略,但这带来四大问题:
- 计算成本高:即使是小模型(如32B参数)的微调,也需要上万美元的GPU资源。
- 泛化能力差:模型在训练任务上表现好,但在新任务上表现不佳。
- 数据需求大:需要大量高质量标注数据,在专业领域中难以获取。
- 收益递减:由于成本限制,往往只能微调小模型,而无法利用更大模型的潜力。
论文提出一个根本性问题:是否只能通过参数更新来优化模型? 答案是否定的。LLM本身具备强大的上下文学习能力,只需少量“练习样本”,就能通过经验总结提升表现。Training-Free GRPO正是基于这一理念,将优化过程从“参数空间”转移到“上下文空间”,通过动态更新提示中的经验知识库来引导模型行为。
方法详解:Training-Free GRPO如何工作?
整体流程概述
Training-Free GRPO模仿传统GRPO的多轮学习机制,但完全不更新模型参数。其核心是维护一个经验知识库,在每轮迭代中,模型根据当前经验生成多个答案,评估它们的质量,并总结出“成功经验”或“失败教训”,更新到知识库中。后续查询时,模型会参考这些经验,从而提升表现。

上图对比了传统GRPO与Training-Free GRPO的流程。传统GRPO通过梯度更新参数,而Training-Free GRPO通过更新上下文中的经验库来实现优化。
关键步骤拆解
-
Rollout与奖励
对于每个问题,模型生成一组答案(例如5个),并使用奖励模型(或真实答案)为每个答案打分。 -
组相对语义优势计算
传统GRPO使用数值公式计算每个答案的相对优势:其中:
这个公式衡量每个答案在组内的“相对好坏”。但在Training-Free GRPO中,不直接使用数值,而是让LLM自己分析这些答案,总结出“为什么A答案比B答案好”的语义描述,形成一条条经验(例如:“在几何题中,应先验证点是否在边界内,避免无效解”)。
- 是第i个答案的奖励分数
- 和 分别是组内奖励的均值和标准差
-
经验库优化
系统根据语义优势,对经验库进行四种操作:这些操作由LLM自动判断和执行,确保经验库始终保持高质量、高泛化性。
- 添加:新增一条经验
- 删除:移除无效经验
- 修改:优化现有经验
- 保留:不做改动
与传统GRPO的对比
- 相同点:都使用组内比较、多轮学习。
- 不同点:
- 传统GRPO更新模型参数,Training-Free GRPO更新上下文经验。
- 传统GRPO依赖数值优势,Training-Free GRPO使用语义优势。
- 传统GRPO需要大量数据与计算,Training-Free GRPO仅需少量样本与API调用。
实验验证:效果如何?
数学推理任务
论文在AIME 2024和2025数学竞赛题上测试方法,使用DeepSeek-V3.1-Terminus(671B参数)模型,仅用100个训练样本。

结果显示:
- 无工具提示:准确率从68.6%提升至72.6%(+4.0%)
- 带工具ReAct:准确率从80.0%提升至82.7%(+2.7%),AIME25从67.9%提升至73.3%(+5.4%)
相比之下,传统RL方法(如ReTool、AFM)需数千样本、上万美元训练小模型,而Training-Free GRPO仅花费约18美元。

上图展示了学习过程中性能稳步提升,同时工具调用次数减少,说明模型学会了更高效的解题策略。
网络搜索任务
在WebWalkerQA基准上,使用100条训练样本:

- ReAct基线:63.2%
- Training-Free GRPO:67.8%(+4.6%)
模型学会了优先点击官方来源、优化搜索词等实用策略。
跨领域泛化能力

传统方法在跨领域测试中表现大幅下降(如数学模型在搜索任务中准确率仅18.3%),而Training-Free GRPO通过切换经验库,在数学和搜索任务中均达到最优表现,凸显其泛化优势。
讨论与分析:为什么它有效?
消融研究:关键组件的作用

- 直接生成经验:性能反而下降,说明未经优化的经验无效。
- 无真实答案:仅通过组内比较也能提升,说明方法在无监督场景下仍有效。
- 无组计算:性能显著下降,证明组内比较是语义优势的核心。
模型规模的影响

- 在Qwen2.5-32B等小模型上,提升有限甚至下降。
- 在DeepSeek-V3.1-Terminus等大模型上,提升显著。
说明:Training-Free GRPO更适合能力强的大模型,因为语义理解与经验总结需要较高的推理能力。
经验知识的实际案例

论文附录中列出了学到的经验示例,例如:
- “在几何题中,验证解是否在边界内,避免无效解”
- “优先从官方来源提取信息,而非第三方摘要”
这些经验像“解题技巧”一样,被插入到提示中,引导模型更稳健地推理和行动。
结论与展望
核心贡献总结
- 新范式:首次将RL优化从参数空间移至上下文空间,实现“训练免费”的代理优化。
- 语义优势:用自然语言经验替代数值优势,更贴合LLM的认知方式。
- 高效实用:仅需几十样本、几十美元,就能显著提升大模型在专业任务上的表现。
研究价值与现实意义
- 为资源有限的场景(如中小企业、科研机构)提供了高效优化LLM代理的路径。
- 保持了模型的泛化能力,避免“专才模型”的局限性。
- 为后续研究开辟了新方向:上下文空间的强化学习。
未来展望
- 扩展到更多领域(如代码生成、医疗诊断)。
- 结合更复杂的经验管理机制(如分层知识库)。
- 探索自动化奖励模型的设计,减少对真实答案的依赖。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
优快云粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传优快云,朋友们如果需要可以扫描下方二维码&点击下方优快云官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉优快云大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)

👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。


👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

👉4.大模型实战项目&项目源码👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战项目来学习。(全套教程文末领取哈)

👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)

👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

为什么分享这些资料?
只要你是真心想学AI大模型,我这份资料就可以无偿分享给你学习,我国在这方面的相关人才比较紧缺,大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!
这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


优快云粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传优快云,朋友们如果需要可以扫描下方二维码&点击下方优快云官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉优快云大礼包:《最新AI大模型学习资源包》免费分享 👈👈
腾讯提出免训练大模型优化法
837

被折叠的 条评论
为什么被折叠?



