Agent 技术原理和前沿进展

思维导图

在这里插入图片描述


课程内容

1. 课程总体脉络

本课程围绕“从大模型到自治智能体(Agent)”的演进路径,聚焦:

  • AGI 分级路线(Level1→Level5)
  • 推理(System 2)能力缺失原因与补强路径
  • 从聊天模型到具备规划与行动能力的 Agent
  • Agent 的概念、特征、分类与历史演化
  • 核心技术组件:工具调用、MCP、代码解释器、记忆、规划与反思
  • 推理增强模型对 Agent 的推动(OpenAI o1、DeepSeek 等)
  • 工业落地与混合式(Workflow + Agent)实践
  • 评估体系(能力 / 轨迹 / 端到端)
  • 前沿方向:多 Agent 协作、GUI-Agent、具身智能、Deep Research 型自主体
  • Agent 训练(数据构造、强化学习注入推理)

2. AGI 分级路线(Level 1–5)

在这里插入图片描述

  1. Level 1:聊天机器人(Chatbot)——已成熟(“100 分”)
  2. Level 2:具备推理能力、解决人类水平问题(当前约 0.7–0.8 分 / 1)
  3. Level 3:自治代理(Agent):感知环境 + 自主行动(当前约 0.1 分)
  4. Level 4:创新者(AI 辅助创新、科研、模型自助改进)
  5. Level 5:组织者(AI 组织人类或其他 AI 协同)

说明:

  • 各级并非严格线性完成,可“跳跃借用”高阶思想反哺低阶实现。
  • 当前产业实践主要在 Level 2→3 过渡期。

3. 为什么传统大模型达不到 System 2 推理

在这里插入图片描述

  • 本质:大模型通过预训练“下一个 Token 预测”,属于“快思考”(System 1)

  • 缺陷:缺少稳定的链式内在推理过程(缺乏“慢思考”)

  • 方向:将训练资源部分转移到测试 / 推理阶段(Test-time reasoning)

  • 解决:思维链(CoT)、反思(Reflection)、强化学习(RL)注入推理轨迹

  • 早期模型偏“文科型”(知识、语言流畅)→ 推理薄弱

  • 推理模型出现后(如 o1、DeepSeek 思考/推理增强)转向“理科型”

  • 通过 RL + 思维链可显著提升数学、代码、科学题表现


4. 从 Level 2 到 Level 3:关键障碍与两大方案

在这里插入图片描述

障碍:

  • 规划(Planning)不稳定
  • 工具使用容易漂移或参数错误
  • 缺少自我反思与纠错
  • 长时任务目标保持困难

两类方案:

  1. 方案 1:Workflow 替代自主规划(显式流程、节点约束、可靠性高)
  2. 方案 2:提升推理(使用推理模型 / RL 训练)→ 支撑自主 Plan & Reflection

实际工程:多数采用“混合模式”(大流程 Workflow + 局部自主 Agent)


5. Agent 定义、特征与分类

在这里插入图片描述

特征(四要素):

  • 自主性(Autonomy)

  • 感知(Perception)

  • 决策制定(Decision-making)

  • 行动(Action)

    在这里插入图片描述

分类与演化:

  • Reflex Agent(反射式)

  • Rule-based Agent(基于规则 / 专家系统)

  • RL-based Agent(强化学习智能体,如 AlphaGo、特斯拉自动驾驶架构)

  • LLM-based Agent(语言模型驱动)

  • LMM-based Agent(多模态扩展)

  • AGI Agent(通用智能体愿景)

    在这里插入图片描述


6. 典型案例与演化里程碑

  • AlphaGo:强化学习 + 搜索

    在这里插入图片描述

  • 特斯拉端到端感知驾驶架构

    在这里插入图片描述

  • ReAct:最简 Agent(思考 + 行动交替,150 行级实现)

    在这里插入图片描述

  • Generative Agents(虚拟小镇环境角色模拟)

    在这里插入图片描述

  • RL + LLM 结合逐步成为主流范式

在这里插入图片描述


7. Agent 核心组件拆解

在这里插入图片描述

7.1 环境(Environment)

  • 支撑感知—行动循环
  • 任务型、仿真型、业务系统型(如数据库 / 浏览器 / 代码目录)

7.2 工具 / 函数调用(Action)

在这里插入图片描述

  • 标准格式:Action Name + Arguments → Observation
  • 调用链不是模型直接执行,而是外部执行结果回传
  • 分类:
    • 单步单工具
    • 并行多工具
    • 多步串联
    • 多轮多步复合
  • 评测基准(如 BFCL v3):覆盖工具调用复杂度

7.3 MCP(Model Context Protocol)

在这里插入图片描述

  • 统一协议 + 服务注册 / 发现
  • 目标:减少重复适配不同服务 API 的工作
  • 形式类似“服务注册中心” → 大模型通过统一客户端调用不同能力

7.4 代码解释器(创造工具)

在这里插入图片描述

  • 通过生成与执行代码扩展工具空间
  • 用于数据分析、计算、格式化、转换任务

7.5 记忆(Memory)

在这里插入图片描述

  • 短期:上下文 / 临时文件(如 todo.md 任务列表)
  • 长期:外部存储(向量库 / 文本库),支持状态回放与多轮持续任务
  • 案例:Cloud Code、Cursor 通过文件更新保持任务轨迹与专注度

7.6 规划与反思(Plan & Rethinking)

包含:

  • 任务拆分(Decomposition)
  • 思维链(Chain-of-Thought)
  • 反思 / 自我修正(Reflection / Self-critique)
  • 失败恢复(错误参数重试)
  • 路径保持(防偏移)

评测:

  • Blocksworld(方块世界)规划能力测试
  • PlanBench 系列:多步规划准确率(推理模型 vs 普通模型差异显著)

8. 推理增强模型促进 Agent 能力提升

在这里插入图片描述

  • 传闻中的“star*”类推理训练路线 → 实际以 o1 等形式呈现
  • 指标跃迁:数学竞赛、代码评测、跨学科博士级问题正确率显著提升
  • 使“文科型” → “理科型” 转变
  • DeepSeek 推理强化路线:通过开放实践展示可复刻小规模推理注入方式

9. 工程实践模式:Workflow vs Agent

维度Workflow自主 Agent
可控性中 / 低(取决于推理能力)
适用场景标准化流程、合规要求高复杂探索、模糊目标
失败恢复明确节点回滚依赖模型反思
优化方向节点编排、策略路由推理增强、工具稳健性
实际落地主流局部试点 / 混合嵌入

混合模式:在大流程(客服、营销、知识问答)中的某个子阶段嵌入自治子 Agent(如“故障分析”环节)。

在这里插入图片描述


10. 典型应用案例

  1. 客服 / 营销(保险 / 车服务场景):11 步 Workflow 引导(意图识别 → 信息采集 → 故障标注 → 服务方式)

    在这里插入图片描述

  2. 智能问数(GBI):自然语言转 SQL(工具调用 + 评估体系)

    在这里插入图片描述

  3. DeepResearch 报告生成:多轮检索 + 反思 + 报告撰写 + 引用校验

    在这里插入图片描述

  4. AI Coding(Cloud Code / Cursor):通过任务文件 + Plan → 循环执行 → 标记完成

在这里插入图片描述

  1. 数据分析 / Python 脚本生成:脚本型工具链

在这里插入图片描述


11. 评估体系(Evaluation)

在这里插入图片描述

三层分类:

  1. 能力评估(Atomic Capabilities)
    • 规划、推理、反思、工具使用、记忆
    • 使用基准集(如 HotpotQA、PlanBench、BFCL、Tau Bench 等)
  2. 轨迹评估(Trajectory)
    • 比较工具序列 / 查询生成 / 反思路径是否符合预期(白盒)
  3. 端到端评估(Task Outcome)
    • 客观可比:QA / 数学 / 代码 / 数据分析(参考答案或 LLM-as-Judge)
    • 主观:报告写作 / App 生成(拆分评分点 + 人审 / GSB 比较)

具体方法:

  • SQL 评估:
    • AST 结构比对(语法级)
    • 端到端结果执行(标准结果为生成结果列的子集即可判定正确;需处理列顺序 / 去重 / ORDER BY 差异)
  • 报告评估:
    • 维度:全面性、深度、指令遵循、可读性(加权汇总)
    • 引用质量:引用是否支撑结论、引用精确度、平均有效引用数
    • GSB(Good / Same / Bad)对比:相对优劣更稳定,无法提供绝对分值

讲师强调:

  • 主观场景评估离不开人工
  • 相对比较(A vs B)往往比绝对分数更可靠

12. 多 Agent 与前沿探索

在这里插入图片描述

  • 多 Agent 协作:角色扮演式专家协商(如医疗场景 MedAgents:专家讨论 → 总结 → 协商 → 决策)
  • GUI-Agent:操作图形界面执行任务
  • 具身智能(Embodied):在物理 / 虚拟环境中结合感知与行动
  • Deep Research / 自主检索 Agent:核心工具集包括
    • 知识库检索(RAG)
    • 网页浏览 / 浏览器操控
    • 数据分析 / 代码执行
    • 多模态生成(图像 / 语音 / 视频)

13. 推理 / 记忆在实际系统中的工程策略

问题风险课程策略
规划漂移输出路径偏离目标任务清单(todo.md)+ 阶段性反思
工具误用参数缺失 / 错误类型严格函数 schema + 解析校验
上下文遗忘长任务丢失中间状态短期:文件记录;长期:外部知识库(RAG)
失败恢复死循环 / 重复调用反思模板(Observation→Re-plan)
推理不足逻辑崩溃使用推理型模型(o1 / DeepSeek 等)
接入复杂多服务多协议MCP 统一协议化

14. Agent 训练与微调(Fine-Tuning / RL)

数据结构(构造样本):

  • Human(用户输入)
  • Thought(模型显式思考)
  • Tool Calls(工具调用:选择 + 参数)
  • Observation(工具返回)
  • Assistant(最终回复)

强化学习(RL)/ 思考训练作用:

  • 注入推理(让模型从“快生成”转向“分步求解”)
  • 形成稳定“思考—行动—反思”循环
  • 案例:通过小规模复刻实验验证“推理能力可后注入”

15. ReAct 模式要点

Prompt 格式(核心槽位):

  • Question
  • Thought(决定下一步)
  • Action
  • Action Input
  • Observation
  • (循环若干次)
  • Final Answer

意义:

  • 把“隐性思考”显式化,利于错误纠正与可追溯
  • 成本低(少量提示即可获得稳定基础 Agent 行为)

16. 当前瓶颈与实践共识

主要瓶颈:

  • 稳定规划仍不足(多步成功率有限)
  • 工具生态接入碎片化(MCP 正在统一)
  • 复杂开放任务(研究、创新)仍依赖人工监督
  • 评估体系尚未统一(尤其主观型任务)

实践共识:

  • 近期生产级更偏向“Workflow 主干 + 局部自治”
  • 推理能力提升是自治扩张前提
  • 训练与评估需闭环(数据 → 推理增强 → 行为分析 → 策略改进)

17. 关键观点

  • “当前大模型已做成‘文科模型’,推理增强后才像‘理科模型’”
  • “Level 2 还未满分,但可以开始做 Level 3”
  • “架构不要急于依赖现成 Agent 框架,建议先手写再抽象”
  • “全自主 Agent 尚不稳定,Workflow 仍是工业主流”
  • “评估中相对比较(GSB)往往比绝对打分更稳健”
  • “记忆文件(如 todo.md)是保持长任务不跑偏的有效工程手段”

18. 引用 / 资料

  • Exploring LLM-based Intelligent Agents(Agent 定义综述)
  • The Rise and Potential of LLM Based Agents
  • Generative Agents(虚拟小镇)
  • ReAct(Reason + Act)
  • Blocksworld / PlanBench 规划评测
  • MedAgents(多专家协作)
  • Deep Research Agents: Systematic Examination and Roadmap
  • AgentTuning / RL 训练实践
  • MCP(Model Context Protocol)
  • Code Interpreter / OpenCodeInterpreter
  • BFCL / Tau Bench 等工具使用能力评测示例

总结

本课程核心主线是:
从“语言流畅”到“可分解、可规划、可执行、可反思”是 Agent 跃迁的真正难点;
推理模型 + 规范化工具接入(MCP)+ 记忆机制 + 规划/反思结构化 Prompt 共同构成当前可行工程范式;
工业界短期最优实践是“稳健 Workflow 主体 + 局部自治增强”;
评估需要多维协同(能力 / 轨迹 / 端到端),主观任务需结合 GSB;
未来演进方向:多 Agent 协作、跨模态具身、推理与创新型(Level4)任务加速落地。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值