大模型智能体三大核心范式：ReAct、Plan-and-Solve与Reflection完全指南！

最新推荐文章于 2025-12-14 09:15:00 发布

原创最新推荐文章于 2025-12-14 09:15:00 发布 · 631 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#react.js #前端 #前端框架 #知识图谱 #自然语言处理 #人工智能 #AI大模型

简介

文章介绍大模型智能体的三大核心范式：ReAct通过"思考-行动-观察"循环实现与外部交互；Plan-and-Solve采用先规划后执行的两阶段处理方式；Reflection引入"执行-反思-优化"循环实现自我校正。这些范式分别适用于需要外部知识、精确计算、API交互、结构化任务及高质量输出的场景，有效提升大模型的问题解决能力。

ReAct

ReAct由Shunyu Yao于2022年提出，其核心思想是模仿人类解决问题的方式，将推理 (Reasoning) 与行动 (Acting) 显式地结合起来，形成一个“思考-行动-观察”的循环。

在ReAct诞生之前，主流的方法可以分为两类：一类是“纯思考”型，如思维链 (Chain-of-Thought)，它能引导模型进行复杂的逻辑推理，但无法与外部世界交互，容易产生事实幻觉；另一类是“纯行动”型，模型直接输出要执行的动作，但缺乏规划和纠错能力。

ReAct的巧妙之处在于，它认识到思考与行动是相辅相成的。思考指导行动，而行动的结果又反过来修正思考。为此，ReAct范式通过一种特殊的提示工程来引导模型，使其每一步的输出都遵循一个固定的轨迹：

Thought (思考)：

这是智能体的“内心独白”。它会分析当前情况、分解任务、制定下一步计划，或者反思上一步的结果。
Action (行动)：

这是智能体决定采取的具体动作，通常是调用一个外部工具，例如 Search['华为最新款手机']。
Observation (观察)：

这是执行Action后从外部工具返回的结果，例如搜索结果的摘要或API的返回值。

这种机制特别适用于以下场景：

需要外部知识的任务

如查询实时信息（天气、新闻、股价）、搜索专业领域的知识等。
需要精确计算的任务

将数学问题交给计算器工具，避免LLM的计算错误。
需要与API交互的任务

如操作数据库、调用某个服务的API来完成特定功能。

Plan-and-Solve

Plan-and-Solve。顾名思义，这种范式将任务处理明确地分为两个阶段：先规划 (Plan)，后执行 (Solve)。其核心动机是为了解决思维链在处理多步骤、复杂问题时容易“偏离轨道”的问题。与 ReAct 将思考和行动融合在每一步不同，Plan-and-Solve 将整个流程解耦为两个核心阶段：

规划阶段 (Planning Phase)

首先，智能体会接收用户的完整问题。它的第一个任务不是直接去解决问题或调用工具，而是将问题分解，并制定出一个清晰、分步骤的行动计划。这个计划本身就是一次大语言模型的调用产物。
执行阶段 (Solving Phase)

在获得完整的计划后，智能体进入执行阶段。它会严格按照计划中的步骤，逐一执行。每一步的执行都可能是一次独立的 LLM 调用，或者是对上一步结果的加工处理，直到计划中的所有步骤都完成，最终得出答案。

Plan-and-Solve 尤其适用于那些结构性强、可以被清晰分解的复杂任务，例如：

多步数学应用题

需要先列出计算步骤，再逐一求解。
需要整合多个信息源的报告撰写

需要先规划好报告结构，再逐一填充内容。
代码生成任务

需要先构思好函数、类和模块的结构，再逐一实现。

Reflection

Reflection 机制的核心思想，正是为智能体引入一种事后（post-hoc）的自我校正循环，使其能够像人类一样，审视自己的工作，发现不足，并进行迭代优化。其核心工作流程可以概括为一个简洁的三步循环：执行 -> 反思 -> 优化。

执行 (Execution)

首先，智能体使用我们熟悉的方法（如 ReAct 或 Plan-and-Solve）尝试完成任务，生成一个初步的解决方案或行动轨迹。这可以看作是“初稿”。
反思 (Reflection)

接着，智能体进入反思阶段。它会调用一个独立的、或者带有特殊提示词的大语言模型实例，来扮演一个“评审员”的角色。这个“评审员”会审视第一步生成的“初稿”，并从多个维度进行评估，例如：

事实性错误

：是否存在与常识或已知事实相悖的内容？
逻辑漏洞

：推理过程是否存在不连贯或矛盾之处？
效率问题

：是否有更直接、更简洁的路径来完成任务？
遗漏信息

：是否忽略了问题的某些关键约束或方面？根据评估，它会生成一段结构化的反馈 (Feedback)，指出具体的问题所在和改进建议。

优化 (Refinement)

最后，智能体将“初稿”和“反馈”作为新的上下文，再次调用大语言模型，要求它根据反馈内容对初稿进行修正，生成一个更完善的“修订稿”。

Reflection 机制是一种典型的“以成本换质量”的策略。它非常适合那些对最终结果的质量、准确性和可靠性有极高要求，且对任务完成的实时性要求相对宽松的场景。例如:

生成关键的业务代码或技术报告。
在科学研究中进行复杂的逻辑推演。
需要深度分析和规划的决策支持系统。

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习和面试资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】
在这里插入图片描述