给智能体更多“思考时间”：OPPO AI Agent团队如何系统性提升LLM Agent的性能

最新推荐文章于 2025-12-05 11:17:30 发布

原创最新推荐文章于 2025-12-05 11:17:30 发布 · 723 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #大模型入门 #大模型学习 #LLM #Agent #大模型 #智能体

前言

LLM Agent，这个概念大家可能已经不陌生了。它就像一个拥有超级大脑（LLM）的“数字员工”，能够自主规划、调用工具（如搜索引擎、计算器、代码执行器），一步步完成复杂的任务。从自动撰写市场分析报告，到预订一张复杂的联程机票，Agent展现了巨大的潜力。

然而，理想很丰满，现实却有些骨感。尽管底层的大模型能力很强，但Agent在面对真正复杂的推理和规划任务时，仍然会像一个“新手员工”一样，频繁犯错：比如规划出错、工具调用失败、或者在某个步骤卡住无法前进。这背后的一大原因，是它们通常采用一种“线性”的思考模式——想一步、做一步，一旦走错，就很难回头。

有没有办法让Agent在做决定前“三思而后行”呢？

最近，一篇来自OPPO AI Agent团队的论文 《Scaling Test-time Compute for LLM Agents》，为我们提供了一套系统性的解决方案。这篇论文首次将“测试时计算扩展”（Test-Time Scaling, TTS）这一在提升大模型推理能力上被证明行之有效的策略，系统性地应用到了LLM Agent上。

简单来说，TTS的核心思想就是在模型进行推理（测试时）投入更多的计算资源，让它“想得更多、想得更深”，从而找到更优的答案。这篇论文不仅证明了这条路在Agent上同样有效，还像一本“操作手册”，详细拆解了四种关键策略，并给出了明确的最佳实践。

一、背景概述：为什么Agent需要“更多思考时间”？

传统的LLM应用，比如你问ChatGPT一个问题，它直接生成一个答案，这是一个“端到端”的过程。而Agent不同，它是一个“多步决策”的过程。

想象一下，你让Agent帮你规划一次为期一周的巴黎旅行。它需要：

分解任务：搜索往返机票、预订酒店、规划每日行程、查找著名餐厅等。
调用工具：使用搜索引擎查机票价格、用酒店预订API查空房、用地图工具规划路线。
整合信息：将所有信息汇总成一份完整的旅行计划。

在这个长链条中，任何一个环节出错，都可能导致整个任务失败。比如，它可能在一个步骤中错误地理解了你的预算，或者调用API时格式写错了。传统的“一步到位”生成模式，错误会像滚雪球一样越积越大，最终导致结果完全不可用。

而“测试时计算扩展”（TTS）就是为了解决这个问题。它的理念很简单：不要满足于第一个想到的答案，而是通过增加计算量，探索更多的可能性。 比如，在选择机票时，Agent可以不只看第一个搜索结果，而是同时生成10个不同的搜索查询，综合比较后再做决定。

虽然TTS在数学推理等任务上已经大放异彩，但如何将其有效地应用在结构更复杂的Agent框架上，一直是一个开放性问题。这正是OPPO这篇论文的研究动机和核心价值所在——它填补了TTS在Agent领域系统性研究的空白。

二、核心内容：四大策略，全面提升Agent能力

这篇论文的核心贡献，可以概括为对四种关键策略的系统性探索与验证。它们共同构成了一个提升Agent性能的“组合拳”。

图1：论文提出的智能体测试时计算扩展框架概览

并行采样（Parallel Sampling）：改变Agent“单线程”的思考模式。不再是一条路走到黑，而是同时探索多条解决路径，最后选择最好的一条。
序列修正（Sequential Revision）：引入“反思”机制。让Agent在执行过程中能停下来，审视自己当前的状态和之前的操作，判断是否需要调整策略。
验证与合并（Verifiers and Merging）：建立“质量控制”体系。当有多个备选方案时，如何准确地评估哪个最好？如何将多个好的方案融合成一个更优的解？
多样化部署（Diversifying Rollouts）：提升探索的“广度”。通过引入不同的“思考者”（即不同的LLM模型），来增加解决方案的多样性，避免思维固化。

下面，我们将逐一解析这些策略是如何设计和实现的。

三、方法解析：如何让Agent“三思而后行”？

1. 并行采样：从“单核”到“多核”的思维升级

这是最直观的性能提升方法。研究团队探索了多种主流的并行采样算法，并将它们适配到了Agent的工作流程中。

Best-of-N (BoN)：这是最简单粗暴但有效的方法。对于一个任务，让Agent完整地执行N次，生成N个最终答案。然后，用一个“裁判”（Verifier）模型选出最好的一个。这就像让N个员工独立完成同一个项目，最后挑一个做得最好的方案。
Step-wise Best-of-N (BoN-wise)：这种方法更加精细。它不是等任务全部完成后再选，而是在Agent的每一步决策时，都生成N个备选操作（thought），然后立即选出最好的一步继续往下走。这好比一个项目经理，在项目的每个关键节点，都让团队提出N个方案，然后选择最优的方案推进，确保每一步都走在正确的方向上。
束搜索（Beam Search）：这是一种在机器翻译等领域常用的方法。在每一步，始终保留K个最有可能的“部分解决方案”（路径）。在下一步，从这K个路径出发继续探索，再选出新的K个最佳路径。它像是在一个巨大的决策树上，始终保持K条最有希望的探索分支，避免过早放弃有潜力的方案。
多样化验证树搜索（DVTS）：这是对Beam Search的改进，旨在增加搜索的多样性。它将搜索任务分解成多个子树，并行探索，从而找到更高质量且更多样的解决方案。

实验结论：在这些方法中，BoN 和 BoN-wise 表现最为突出。BoN在整体性能提升上效果最好，而BoN-wise在处理最复杂的任务时表现更优，因为它在每一步都进行了优化，防止了早期错误累积。

2. 序列修正：Agent的“吾日三省吾身”

光有并行探索还不够，Agent也需要自我反思和修正的能力。研究团队设计了一种“反思代理”（Reflection Agent），它的作用是根据当前状态和最近的操作历史，生成一份“总结与反思”（Summary）。

但关键问题是：什么时候应该反思？

如果每一步都反思，就像一个过度谨慎、犹豫不决的人，会严重拖慢进度，甚至打断原本正确的思路。论文发现，让Agent无时无刻不在反思，性能反而会下降。

因此，他们提出了一种更聪明的 “基于分数的选择性反思”（Score-based Reflection） 机制。

首先，引入一个“验证模型”（Verify Model）给Agent的每一步操作打分（0-10分），评估这一步的质量。
然后，设定一个分数阈值（Threshold）。
只有当某一步操作的得分低于这个阈值时（比如得分低于2分，说明这一步可能出了严重问题），才触发反思机制。Agent会带着这份“反思总结”重新生成当前步骤的解决方案。

实验结论：这种“在关键时刻才反思”的策略非常有效。实验表明，低频、有针对性的反思（例如，仅在得分极低时触发）带来的性能提升最大。这告诉我们一个深刻的道理：对Agent而言，知道何时需要反思，比不停地反思更重要。

3. 验证与合并：如何选出“最佳答案”？

当并行采样产生了多个候选方案后，我们需要一个可靠的机制来评判和选择。这涉及到两个环节：验证（Verifier） 和 结果合并（Result Merging）。

验证方法（如何评估好坏）：

打分制（Scoring PRM）：让一个作为奖励模型（Process-based Reward Model, PRM）的LLM，直接为每个候选方案（或每一步操作）打一个绝对分数，比如8分。
排序制（List-wise PRM）：不打绝对分，而是将所有N个候选方案打包成一个列表，让PRM直接选出其中最好的一个。

实验结论：排序制（List-wise） 的效果远好于打分制。这很符合直觉，对于LLM来说，在多个选项中做“相对比较”（哪个更好）比给出一个精确的“绝对分数”要容易和准确得多。

结果合并方法（如何产生最终答案）：

投票（Voting）：简单多数原则，选择出现次数最多的答案。
打分（Scoring）：基于前面打分制的结果，选择分数最高的答案。
排序（List-wise）：同样，将所有最终答案列表化，让“裁判”LLM直接挑选出最佳答案。

实验结论：与验证环节的发现高度一致，排序制（List-wise） 在结果合并中也表现最佳。它不仅能考虑多数意见，还能从那些虽然小众但可能正确的答案中发现“遗珠”。

核心启示：无论是过程中的验证，还是最终结果的合并，让LLM做选择题（List-wise），而不是填空题（Scoring），是提升准确率的关键。

4. 多样化部署：人多力量大，模型多思路广

并行采样的效果，很大程度上取决于生成的多个“路径”之间有多大的差异性（Diversity）。如果生成的10个方案都大同小异，那采样的意义就不大了。如何增加多样性呢？

研究团队从两个层面进行了探索：

增加采样宽度：即增加并行采样的数量N（比如从2个增加到4个）。实验证明，这能稳定地提升性能，符合TTS的基本规律。
引入异构模型（Heterogeneous Models）：这是本研究中一个非常亮眼和实用的策略。与其让一个模型（比如GPT-4.1）生成所有方案，不如组建一个“模型梦之队”。比如，让GPT-4.1、Claude-3.5、Gemini-2.5-PRO等不同的顶尖模型分别去解决同一个问题。

因为不同的模型有不同的“性格”和“专长”（有的擅长编码，有的擅长工具使用，有的更有创造力），它们会从完全不同的角度出发，产生高度多样化的解决方案。

实验结论：异构模型团队的效果惊人！ 单独使用GPT-4.1进行4次采样（pass@4），最终得分是69.14。而当使用GPT-4.1、Claude-3.5、Gemini-2.5-PRO、Claude-3-7组成的四模型“梦之队”时，最终得分飙升至74.55，远超任何单一模型，甚至超过了当前许多顶尖的开源SOTA（State-of-the-Art）模型。

这充分证明了，在Agent领域，通过多模型协作来增强解决方案的多样性，是一条极具潜力的性能提升路径。

四、实验结果与分析：用数据说话

为了验证上述方法的有效性，研究团队在公认的通用AI助手基准测试 GAIA 上进行了大量实验。GAIA数据集包含了不同难度等级（Level 1, 2, 3）的任务，能够全面评估Agent在网页浏览、信息检索、多模态文件处理等方面的能力。他们以一个强大的Agent框架 SmoLAgents 和 GPT-4.1 作为基准（Baseline）。

以下是几个关键的实验发现：

发现1：并行采样显著提升性能 (Table 1)
- 基准模型得分为 55.76。
- 采用 BoN 策略后，分数提升至 63.03，足足提升了近8个点。
- 采用 BoN-wise 策略后，分数达到 58.79，虽然总分不及BoN，但在最难的Level 3任务上，它取得了38.46的最高分，证明了其在复杂问题上的优势。

发现2：明智的反思胜过频繁的反思 (Table 2)
- 在每个步骤都进行反思，性能反而下降到 55.15。
- 而采用选择性反思（仅在得分 < 2时触发），性能提升至 56.36，证明了“好钢用在刀刃上”的重要性。

发现3：排序（List-wise）是最佳选择策略 (Table 3 & 4)
- 在BoN-wise等逐步搜索方法中，使用List-wise进行验证，同样比Scoring方法高出3-5个点。

- 在BoN中，使用List-wise合并方法比Scoring和Voting高出4-6个点。

发现4：多样化带来巨大收益 (Table 5)
- 这是最令人振奋的结果。使用四种不同模型的组合（pass@4），最终得分达到了惊人的 74.55。特别是在最难的Level 3任务上，分数从基准的26.92直接翻倍到50.00。这清晰地展示了“集体智慧”的强大力量。

五、启示：对我们有什么用？

这篇论文不仅仅是一次学术探索，它为所有致力于构建和优化LLM Agent的开发者和研究者提供了一份极具价值的“实践指南”。

低成本高效提升：如果你想快速提升Agent性能，BoN + List-wise Verifier 是你的首选。这个组合实现简单，效果立竿见影。只需要让Agent多跑几次，然后让LLM自己选出最好的结果即可。
复杂任务的克星：对于那些长链条、高难度的任务，可以考虑使用 BoN-wise，在每一步都进行优化，并配合选择性反思机制，在关键的错误点进行纠正，防止一步错、步步错。
终极性能的追求：如果你拥有多种模型API的调用权限，并且追求极致的性能，那么组建一个异构Agent团队吧。利用不同模型的独特优势，可以突破单一模型的性能天花板，达到1+1 > 2的效果。

总而言之，OPPO AI Agent团队的这项研究，系统性地揭示了通过增加“思考”的深度（修正）、广度（并行采样）和多样性（异构模型），可以极大地释放LLM Agent的潜力。它告诉我们，未来的高级智能体，可能不再是单个的“孤胆英雄”，而是一个懂得“三思而后行”、善于“自我反思”、并能调度“专家团队”协同作战的“指挥官”。

这扇通往更强大、更可靠的通用人工智能助手的大门，正被这些扎实的研究工作，一步步地推开。