11.8开营
-
组队建议5-10人
-
打卡内容:包括但不限于学习到的知识总结、学习遇到的问题和对本次task的感受。希望大家尽量自己总结撰写,不要复制教程,不要写与本次学习无关的内容
-
公开笔记链接
开营直播:
陈思州介绍了整本书的主要章节内容。每一章内容在前一章上扩展更新。
下一步计划:
-
英文版教程
-
双语视频课程
-
共创第16章
腾讯优图RAG技术的架构设计与创新实践:
https://zhuanlan.zhihu.com/p/1948782056923436356
上下文工程资料:
前言
了解发展进程,并理解什么是Agent:让AI不仅仅是一个有问必答的工具,而是成为一个能自主规划、调用工具、解决复杂问题的行动者。
MSA多智能体系统
本项目重点是应用和构建。
项目章节划分:
-
基础篇
-
单体篇
-
高级篇
-
实战篇
-
展望篇
code文件夹里存放了项目代码。
第一部分:智能体与语言模型基础
第一章:初始智能体
掌握智能体的本质。
1.1 什么是智能体
智能体被定义为任何能够通过传感器感知其环境,并自主地通过执行器采取行动以达成特定目标的实体。
环境:摄像头、麦克风、雷达或各类应用程序编程接口API返回的数据流,都是其感知能力的延伸
行动:通过执行器改变状态,例如物理设备(机械臂、方向盘)或虚拟工具(执行一段代码,调用一个服务)
自主性Autonomy:进行独立决策
1.1.1 传统视角下的智能体
-
简单反射智能体
-
基于模型的反射智能体
-
基于目标的智能体
经典案例:GPS导航系统
-
基于效用的智能体
-
学习型智能体
- 代表路径:强化学习
1.1.2 大语言模型驱动的新范式
理解案例:智能旅行助手案例,LLM智能体将一整个规划流程整合起来,实现规划与推理、工具使用、动态修正等操作。
核心不再是编写代码,而是引导一个通用的“大脑”去规划、行动和学习。
1.1.3 智能体的类型
-
基于内部决策架构的分类
-
基于时间与反应性的分类
-
反应式智能体
-
规划式智能体
-
混合式智能体
-
经典的混合架构:分层设计
-
底层是一个快速的反应模块
-
高层是一个审慎的规划模块
-
-
-
-
基于知识表示的分类
-
符号主义AI
-
透明可解释性
-
存在知识获取瓶颈
-
-
亚符号主义AI
-
神经网络,深度学习是代表
-
不透明性,黑箱
-
-
神经符号主义AI
- 两者的混合,类似上述的混合式智能体,分为两层。
-
大语言模型驱动的智能体是神经符号主义的一个极佳实践范例。其内核是一个巨大的神经网络,使其具备模式识别和语言生成能力。然而,当它工作时,它会生成一系列结构化的中间步骤,如思想、计划或 API 调用,这些都是明确的、可操作的符号
1.2 智能体的构成与运行原理
1.2.1 任务环境定义
使用PEAS描述一个任务环境:
-
Performance
-
Environment
-
Actuators
-
Sensors
几乎所有任务都发生在序贯且动态的环境中,序贯意味着当前动作会影响未来。
1.2.2 智能体的运行机制
了解智能体并非一次性完成任务,而是通过一个持续的循环与环境进行交互,这个核心机制被称为智能体循环Agent Loop,描述了智能体与环境之间的动态交互过程,构成了其自主行为的基础。
利用图片加以理解:智能体循环

1.2.3 智能体的感知与行动
但是智能体的循环如何有效驱动呢?需要一套明确的交互协议Interaction Protocol来规范其与环境之间的信息交换
输出不再是单一的自然语言回复,而是一段遵循特定格式的文本,其中明确地展示了其内部的推理过程与最终决策
包含了两个核心部分:
-
思考Thought
-
行动Action:理解这里的action,实际就是决定对环境施加的具体操作,通常以函数调用的形式表示
action字段构成了对外部世界的指令→外部解析器捕捉到这个指令→调用相应的函数→行动执行后返回一个结果→感知系统对结果数据进行处理,封装并处理成一段简洁、清晰的自然语言文本→反馈给智能体,作为下一轮循环的主要输入信息
循环使得LLM智能体得以将内部的语言推理能力与外部环境的真实信息和工具操作能力有效地结合起来。
1.3 动手体验:5分钟实现第一个智能体
构建一个智能旅行助手,直观理解智能体是如何思考并与外部工具交互的。
-
目标:构建一个能处理分步任务的智能旅行助手
-
解决用户任务:查询天气并推荐旅游景点
-
步骤:调用天气查询工具,调用景点推荐工具
1.3.1 准备工作
访问网络API的python库:
-
requests库
-
tavily-python:AI搜索API客户端,可以获取实时的网络搜索结果
-
openai:用于调用GPT等大语言模型服务
执行步骤:
-
了解常见AI IDE有哪些:Trae, Cursor,Kiro, Qoder, Lingma IDE, CodeBuddy等等;我这里使用了Trae,使用AI IDE还是方便些。
-
然后使用conda创建虚拟环境,python3.10,环境名为hello-agent

- 安装必要工具:requests, tavily-python, openai
然后按照github的code,创建chapter1/firstAgentTest.ipynb文件,这里代码最好参考code文件夹里面的,并配上解释。
1.3.2 接入大语言模型
许多LLM遵循了与OpenAI API相似的接口规范。实现一个通用的OpenAICompatibleClient,可以连接到任何兼容OpenAI接口规范的LLM服务。
1.3.3 执行行动循环
利用主循环整合所有组件,并通过prompt驱动LLM进行决策。
最终输出结果如下:

上述示例演示了智能体所具备的四项基本能力:任务分解、工具调用、上下文理解和结果合成。通过循环的不断迭代,智能体才得以将一个模糊的用户意图转化为一系列具体可执行的步骤,并最终达到目标(循环,加上之前的历史对话作为新的prompt输入到LLM中)
1.4 智能体应用的协作模式
1.4.1 作为开发者工具的智能体
1.4.2 作为自主协作者的智能体
从“命令-执行”到“目标-委托”
架构范式主流方向:
-
单智能体自主循环
-
多智能体协作
-
角色扮演式对话
-
组织化工作流
-
-
高级控制流架构:将执行过程建模为状态图
1.4.3 Workflow 和Agent的差异
workflow(工作流,传统的自动化凡事)是让AI按部就班的执行命令,而Agent是赋予AI自由度去自主达成目标(动态采取行动以达到最优目标)。
Agent的核心价值所在:基于实时信息进行动态推理和决策的能力。
1.4 本章小结
建立了一个关于智能体的基础认知框架

被折叠的 条评论
为什么被折叠?



