大模型Agent发展的五重境界、Agent四要素

一、Agent发展的五重境界

第一阶段:工具型agent框架 (Tool-based Agent Frameworks)

工具型agent框架是在ChatGPT横空出世后同时期出现的,当时LLM刚刚展现出强大的文本生成能力,但其应用仍局限于纯文本环境,prompt engineering初步发展。为了实现语言模型与外部工具的基础连接机制,开发者们采用了预定义工具集、简单决策树、基本记忆管理实现了有限的自主性,代表性工作有LangChain、BabyAGI、AutoGPT早期版本等。

局限:LLM被限制在“笼子”里,严重依赖人工定义的工具和流程,灵活性低。

第二阶段:认知型agent (Cognitive Agents)

认知型agent的发展伴随着更强大语言模型如GPT-4的出现。这一阶段的关键驱动因素包括:新一代LLM的推理、规划和反思能力初见端倪,思维链(Chain-of-Thought)技术取得初步突破,使模型能够展示详细推理过程。开发者们通过适当设计的prompt和反馈循环,让LLM展现出初步的语言模型可以展现出初步的规划能力、反思机制、内部思维过程和自我修正。这个时期的典型代表工作有ReAct框架、Reflexion系统、Inner Monologue代理。

局限:环境交互能力有限,主要在思维层面运作,推理深度受限,复杂推理链中仍然存在"走神"和逻辑断裂问题,自我修正能力不稳定难以维持长期目标,在延伸任务中容易偏离原始目标。

第三阶段:环境交互agent (Environment-Interacting Agents)

环境交互agent的发展始于2023年中,这一时期的关键技术驱动包括多模态模型的突破,GPT-4V让agent能够"看见"环境了,浏览器自动化技术提供了与网络环境交互的标准化接口,开发者们开始尝试让agent去做一些界面理解、环境导航、执行复杂操作序列等任务。这个时期的代表工作有AutoGPT高级版、BrowserGPT、Adept ACT-1、Open Interpreter等。

局限:通常专注于特定领域,缺乏跨域集成能力。

第四阶段:自主agent (Autonomous Multimodal Agents)

自主agent的发展始于2024年初,这一阶段的关键驱动因素包括多模态大模型的普及,长上下文窗口的突破,支持数十万甚至数百万token的上下文窗口长度,agent开发工具和平台趋于成熟。开发者们开始探索真正具有自主性的agent系统,能够实现高级规划架构、动态环境适应、长期目标维持和自适应学习。这个时期的代表工作有Devin、OpenHands等。

局限:资源消耗大,稳定性和一致性挑战。

第五阶段:端到端通用agent (End-to-End General Agents)

在发布Deep Research后OpenAI团队在接受采访时提到Deep Research是o3模型的强化微调版本,它是一个端到端agent。o1之后大模型行业全面步入reasoning model时代,基础模型能力持续提升,越来越强大的基础模型内化了更多能力,agent可以无需专门框架支持,完全自主地规划和执行,能持续学习和自我改进能力,能够自主设定和调整目标,它最终将成为AGI的实际应用形式。

二、Agent四要素

2023年,前OpenAI应用研究主管Lilian Weng曾在其博文中提出agent定义和四大核心要素,时间来到2025年,AI发展日新月异,四大要素均发生了很大的变化,让我们一起来看看。

在这里插入图片描述

1. Planning

Planning目前是四要素中发展最快的能力,o1、R1的突破让大语言模型展现出内生的思维链(Chain-of-Thought)能力,可以针对复杂任务生成多步流程,不依赖于提示工程和模板,以及手工编写规则或有限的决策树。

未来的技术演进方向:1.自适应与动态规划:未来 agent 将朝着能根据环境和任务变化自动进行实时重规划的方向演进,具备自我纠错和动态调整策略的能力。2.层次化Planning:构建多层次规划结构,整合微观决策和宏观规划,实现全局与局部的协同优化。

2. Memory

对大模型在 Memory 方面的研究主要聚焦于RAG和长上下文窗口技术,长上下文在过去两三年里已经取得了显著的进展,不过相对于多模态、agent以及reasoning等高阶能力的迫切需求,目前的窗口长度还是远远不够,不然就不会出现大模型在解决长逻辑链深度推理和视频生成一致性上的捉襟见肘,肉眼可见各大模型厂商在 Memory 领域的投入势必会持续加码。

同时,市场上也出现了一些专注于 Memory 中间件的创业公司,如 Mem0、Letta 等,试图为解决长期记忆提供一些解决方案。未来我们仍需解决长期记忆内嵌与持久化、动态记忆管理与智能检索,以及多模态记忆整合等问题,最佳路径仍是通过模型内化来解决。

3. Tool use & Action

当前的agent系统通常预先集成了一组工具或 API,能根据任务需求调用特定外部服务来完成搜索、数据查询、翻译等任务,还不能够根据任务需求动态选择和灵活组合工具。

衡量模型理解用户意图调用工具执行命令能力的测试集叫TAU-bench,用于评估 AI Agent 在现实世界场景中性能和可靠性的基准测试。TAU-bench 设计了两个领域场景TAU-bench(Airline),模拟用户在航空业务场景下进行航班查询、预订、改签、退票、机场服务等操作,和TAU-bench(Retail),模拟在零售场景中进行购物咨询、商品推荐、订单修改、退货换货等操作。目前agentic能力最强的Claude 3.7 在零售领域问题解决率为81%,航空领域只有58%,航空领域一些 case 涉及非常多的查询、匹配航班信息、金额计算、行李/支付/退换多步操作,难度还是很大的。另外这个测试集还定义了一个pass^k 的指标,即多次稳定通过的概率,可以看到每个模型的稳定性都不是很好,所以并不能期望它在复杂的场景、多轮交互中很稳定地理解意图做出正确的行动,这是现状。

在这里插入图片描述

在agent四要素中,tool use和take action能力发展确实滞后其他两个要素,让模型发展脑子更容易,让模型长出手和脚更难。大模型的能力发展次序与我们人类是相反的,我们出生后先发展自己的身体,学会走路,学会用手操作,再识字学知识,再发展高层逻辑思维能力。模型是先学知识,然后发展思维能力,然后再学会computer use,最后才是物理世界的具身。

未来的技术演进方向:从目前看模型的tool use和take action能力都是离散和独立的调用,也就是说任务决策和具体执行往往是分开的过程,只有OpenAI Deep Research是连续动态决策,它会根据每一次搜索结果实时调整下一次搜索方向,它是边搜边想、边想边搜,不断接近目标,直至问题解决,这是端到端RL带来的好处。更进一步地,我们希望模型未来能够根据环境反馈实时调整行动策略,能够自主学习和迭代工具调用,甚至能发现并整合新的外部工具接口。


如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方优快云官方认证二维码,免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值