一篇72页的DeepSeek-R1/QWQ-32B推理能力在AI Agents场景的应用分析

最新推荐文章于 2025-12-20 19:32:34 发布

原创最新推荐文章于 2025-12-20 19:32:34 发布 · 464 阅读

CC 4.0 BY-SA版权

文章标签：

大型推理模型（LRMs）的兴起标志着计算推理领域的范式转变。然而，这一进步也颠覆了传统的 Agent 框架，而这些框架传统上是由以执行为导向的大型语言模型（LLMs）所锚定的，深入理解LRMs在AI Agents中的作用势在必行。

ReAct范式下的整体性能表现。a) 不同任务和模型的性能表现；b) 效率和成本比较。

为了探索这一变革，提出了LaRMA框架，该框架涵盖了工具使用、计划设计和问题解决等九项任务，并使用三种顶级LLMs（例如Claude3.5-sonnet）和五种领先的LRMs（例如DeepSeek-R1、QWQ-32B-Preview）进行了评估，并得出了一些AI Agents设计的重要结论。

LaRMA框架分为三个阶段：

LLMs：包括LLaMA3.1-70B、GPT-4o和Claude3.5-sonnet。
LRMs：包括DeepSeek-R1、Claude3.7-sonnet、Gemini-2.0-Flash、QWQ-32B-Preview和GLM-Zero。
数据集：使用METATOOL、API-Bank、PlanBench、ALFWorld、Web Shop和HotpotQA等数据集。
评估指标：准确率、效率（执行时间或交互步骤）和成本（计算资源消耗，如内存或功耗）。

性能比较：
- LRMs在推理密集型任务（如计划设计）中优于LLMs，准确率超过90%。
- LLMs在执行驱动的任务（如工具使用）中表现更好，准确率较高。
- 混合配置：将LLMs作为执行组件，LRMs作为反思组件，可以优化性能，尤其是在复杂的推理任务中。

推理过程的挑战：
- 过度思考：LRMs在简单任务中可能会过度思考，导致不必要的计算开销。
- 忽视事实：LRMs有时会忽视与外部环境的交互，依赖内部推理，可能导致决策失误。

https://arxiv.org/pdf/2503.11074Large Reasoning Models in Agent Scenarios: Exploring the Necessity of Reasoning Capabilities