思维导图

课程内容
1. 课程总体脉络
本课程围绕“从大模型到自治智能体(Agent)”的演进路径,聚焦:
- AGI 分级路线(Level1→Level5)
- 推理(System 2)能力缺失原因与补强路径
- 从聊天模型到具备规划与行动能力的 Agent
- Agent 的概念、特征、分类与历史演化
- 核心技术组件:工具调用、MCP、代码解释器、记忆、规划与反思
- 推理增强模型对 Agent 的推动(OpenAI o1、DeepSeek 等)
- 工业落地与混合式(Workflow + Agent)实践
- 评估体系(能力 / 轨迹 / 端到端)
- 前沿方向:多 Agent 协作、GUI-Agent、具身智能、Deep Research 型自主体
- Agent 训练(数据构造、强化学习注入推理)
2. AGI 分级路线(Level 1–5)

- Level 1:聊天机器人(Chatbot)——已成熟(“100 分”)
- Level 2:具备推理能力、解决人类水平问题(当前约 0.7–0.8 分 / 1)
- Level 3:自治代理(Agent):感知环境 + 自主行动(当前约 0.1 分)
- Level 4:创新者(AI 辅助创新、科研、模型自助改进)
- Level 5:组织者(AI 组织人类或其他 AI 协同)
说明:
- 各级并非严格线性完成,可“跳跃借用”高阶思想反哺低阶实现。
- 当前产业实践主要在 Level 2→3 过渡期。
3. 为什么传统大模型达不到 System 2 推理

-
本质:大模型通过预训练“下一个 Token 预测”,属于“快思考”(System 1)
-
缺陷:缺少稳定的链式内在推理过程(缺乏“慢思考”)
-
方向:将训练资源部分转移到测试 / 推理阶段(Test-time reasoning)
-
解决:思维链(CoT)、反思(Reflection)、强化学习(RL)注入推理轨迹
-
早期模型偏“文科型”(知识、语言流畅)→ 推理薄弱
-
推理模型出现后(如 o1、DeepSeek 思考/推理增强)转向“理科型”
-
通过 RL + 思维链可显著提升数学、代码、科学题表现
4. 从 Level 2 到 Level 3:关键障碍与两大方案

障碍:
- 规划(Planning)不稳定
- 工具使用容易漂移或参数错误
- 缺少自我反思与纠错
- 长时任务目标保持困难
两类方案:
- 方案 1:Workflow 替代自主规划(显式流程、节点约束、可靠性高)
- 方案 2:提升推理(使用推理模型 / RL 训练)→ 支撑自主 Plan & Reflection
实际工程:多数采用“混合模式”(大流程 Workflow + 局部自主 Agent)
5. Agent 定义、特征与分类

特征(四要素):
-
自主性(Autonomy)
-
感知(Perception)
-
决策制定(Decision-making)
-
行动(Action)

分类与演化:
-
Reflex Agent(反射式)
-
Rule-based Agent(基于规则 / 专家系统)
-
RL-based Agent(强化学习智能体,如 AlphaGo、特斯拉自动驾驶架构)
-
LLM-based Agent(语言模型驱动)
-
LMM-based Agent(多模态扩展)
-
AGI Agent(通用智能体愿景)

6. 典型案例与演化里程碑
-
AlphaGo:强化学习 + 搜索

-
特斯拉端到端感知驾驶架构

-
ReAct:最简 Agent(思考 + 行动交替,150 行级实现)

-
Generative Agents(虚拟小镇环境角色模拟)

-
RL + LLM 结合逐步成为主流范式

7. Agent 核心组件拆解

7.1 环境(Environment)
- 支撑感知—行动循环
- 任务型、仿真型、业务系统型(如数据库 / 浏览器 / 代码目录)
7.2 工具 / 函数调用(Action)

- 标准格式:Action Name + Arguments → Observation
- 调用链不是模型直接执行,而是外部执行结果回传
- 分类:
- 单步单工具
- 并行多工具
- 多步串联
- 多轮多步复合
- 评测基准(如 BFCL v3):覆盖工具调用复杂度
7.3 MCP(Model Context Protocol)

- 统一协议 + 服务注册 / 发现
- 目标:减少重复适配不同服务 API 的工作
- 形式类似“服务注册中心” → 大模型通过统一客户端调用不同能力
7.4 代码解释器(创造工具)

- 通过生成与执行代码扩展工具空间
- 用于数据分析、计算、格式化、转换任务
7.5 记忆(Memory)

- 短期:上下文 / 临时文件(如 todo.md 任务列表)
- 长期:外部存储(向量库 / 文本库),支持状态回放与多轮持续任务
- 案例:Cloud Code、Cursor 通过文件更新保持任务轨迹与专注度
7.6 规划与反思(Plan & Rethinking)
包含:
- 任务拆分(Decomposition)
- 思维链(Chain-of-Thought)
- 反思 / 自我修正(Reflection / Self-critique)
- 失败恢复(错误参数重试)
- 路径保持(防偏移)
评测:
- Blocksworld(方块世界)规划能力测试
- PlanBench 系列:多步规划准确率(推理模型 vs 普通模型差异显著)
8. 推理增强模型促进 Agent 能力提升

- 传闻中的“star*”类推理训练路线 → 实际以 o1 等形式呈现
- 指标跃迁:数学竞赛、代码评测、跨学科博士级问题正确率显著提升
- 使“文科型” → “理科型” 转变
- DeepSeek 推理强化路线:通过开放实践展示可复刻小规模推理注入方式
9. 工程实践模式:Workflow vs Agent
| 维度 | Workflow | 自主 Agent |
|---|---|---|
| 可控性 | 高 | 中 / 低(取决于推理能力) |
| 适用场景 | 标准化流程、合规要求高 | 复杂探索、模糊目标 |
| 失败恢复 | 明确节点回滚 | 依赖模型反思 |
| 优化方向 | 节点编排、策略路由 | 推理增强、工具稳健性 |
| 实际落地 | 主流 | 局部试点 / 混合嵌入 |
混合模式:在大流程(客服、营销、知识问答)中的某个子阶段嵌入自治子 Agent(如“故障分析”环节)。

10. 典型应用案例
-
客服 / 营销(保险 / 车服务场景):11 步 Workflow 引导(意图识别 → 信息采集 → 故障标注 → 服务方式)

-
智能问数(GBI):自然语言转 SQL(工具调用 + 评估体系)

-
DeepResearch 报告生成:多轮检索 + 反思 + 报告撰写 + 引用校验

-
AI Coding(Cloud Code / Cursor):通过任务文件 + Plan → 循环执行 → 标记完成

- 数据分析 / Python 脚本生成:脚本型工具链

11. 评估体系(Evaluation)

三层分类:
- 能力评估(Atomic Capabilities)
- 规划、推理、反思、工具使用、记忆
- 使用基准集(如 HotpotQA、PlanBench、BFCL、Tau Bench 等)
- 轨迹评估(Trajectory)
- 比较工具序列 / 查询生成 / 反思路径是否符合预期(白盒)
- 端到端评估(Task Outcome)
- 客观可比:QA / 数学 / 代码 / 数据分析(参考答案或 LLM-as-Judge)
- 主观:报告写作 / App 生成(拆分评分点 + 人审 / GSB 比较)
具体方法:
- SQL 评估:
- AST 结构比对(语法级)
- 端到端结果执行(标准结果为生成结果列的子集即可判定正确;需处理列顺序 / 去重 / ORDER BY 差异)
- 报告评估:
- 维度:全面性、深度、指令遵循、可读性(加权汇总)
- 引用质量:引用是否支撑结论、引用精确度、平均有效引用数
- GSB(Good / Same / Bad)对比:相对优劣更稳定,无法提供绝对分值
讲师强调:
- 主观场景评估离不开人工
- 相对比较(A vs B)往往比绝对分数更可靠
12. 多 Agent 与前沿探索

- 多 Agent 协作:角色扮演式专家协商(如医疗场景 MedAgents:专家讨论 → 总结 → 协商 → 决策)
- GUI-Agent:操作图形界面执行任务
- 具身智能(Embodied):在物理 / 虚拟环境中结合感知与行动
- Deep Research / 自主检索 Agent:核心工具集包括
- 知识库检索(RAG)
- 网页浏览 / 浏览器操控
- 数据分析 / 代码执行
- 多模态生成(图像 / 语音 / 视频)
13. 推理 / 记忆在实际系统中的工程策略
| 问题 | 风险 | 课程策略 |
|---|---|---|
| 规划漂移 | 输出路径偏离目标 | 任务清单(todo.md)+ 阶段性反思 |
| 工具误用 | 参数缺失 / 错误类型 | 严格函数 schema + 解析校验 |
| 上下文遗忘 | 长任务丢失中间状态 | 短期:文件记录;长期:外部知识库(RAG) |
| 失败恢复 | 死循环 / 重复调用 | 反思模板(Observation→Re-plan) |
| 推理不足 | 逻辑崩溃 | 使用推理型模型(o1 / DeepSeek 等) |
| 接入复杂 | 多服务多协议 | MCP 统一协议化 |
14. Agent 训练与微调(Fine-Tuning / RL)
数据结构(构造样本):
- Human(用户输入)
- Thought(模型显式思考)
- Tool Calls(工具调用:选择 + 参数)
- Observation(工具返回)
- Assistant(最终回复)
强化学习(RL)/ 思考训练作用:
- 注入推理(让模型从“快生成”转向“分步求解”)
- 形成稳定“思考—行动—反思”循环
- 案例:通过小规模复刻实验验证“推理能力可后注入”
15. ReAct 模式要点
Prompt 格式(核心槽位):
- Question
- Thought(决定下一步)
- Action
- Action Input
- Observation
- (循环若干次)
- Final Answer
意义:
- 把“隐性思考”显式化,利于错误纠正与可追溯
- 成本低(少量提示即可获得稳定基础 Agent 行为)
16. 当前瓶颈与实践共识
主要瓶颈:
- 稳定规划仍不足(多步成功率有限)
- 工具生态接入碎片化(MCP 正在统一)
- 复杂开放任务(研究、创新)仍依赖人工监督
- 评估体系尚未统一(尤其主观型任务)
实践共识:
- 近期生产级更偏向“Workflow 主干 + 局部自治”
- 推理能力提升是自治扩张前提
- 训练与评估需闭环(数据 → 推理增强 → 行为分析 → 策略改进)
17. 关键观点
- “当前大模型已做成‘文科模型’,推理增强后才像‘理科模型’”
- “Level 2 还未满分,但可以开始做 Level 3”
- “架构不要急于依赖现成 Agent 框架,建议先手写再抽象”
- “全自主 Agent 尚不稳定,Workflow 仍是工业主流”
- “评估中相对比较(GSB)往往比绝对打分更稳健”
- “记忆文件(如 todo.md)是保持长任务不跑偏的有效工程手段”
18. 引用 / 资料
- Exploring LLM-based Intelligent Agents(Agent 定义综述)
- The Rise and Potential of LLM Based Agents
- Generative Agents(虚拟小镇)
- ReAct(Reason + Act)
- Blocksworld / PlanBench 规划评测
- MedAgents(多专家协作)
- Deep Research Agents: Systematic Examination and Roadmap
- AgentTuning / RL 训练实践
- MCP(Model Context Protocol)
- Code Interpreter / OpenCodeInterpreter
- BFCL / Tau Bench 等工具使用能力评测示例
总结
本课程核心主线是:
从“语言流畅”到“可分解、可规划、可执行、可反思”是 Agent 跃迁的真正难点;
推理模型 + 规范化工具接入(MCP)+ 记忆机制 + 规划/反思结构化 Prompt 共同构成当前可行工程范式;
工业界短期最优实践是“稳健 Workflow 主体 + 局部自治增强”;
评估需要多维协同(能力 / 轨迹 / 端到端),主观任务需结合 GSB;
未来演进方向:多 Agent 协作、跨模态具身、推理与创新型(Level4)任务加速落地。
1245

被折叠的 条评论
为什么被折叠?



