本文来源公众号“Datawhale”,仅用于学术分享,侵权删,干货满满。
原文链接:最新AI Agent万字综述分享!
近日,支付宝百宝箱团队的技术负责人王月凡在 Datawhale 社区带来了 AI Agent 综述分享。从大语言模型的发展历程出发,全面分享了AI Agent现状,包括:AI Agent 出现的原因、构成、核心技术、核心能力、应用场景,以及备受关注的场景落地难点。
同时,在最后探讨了未来的人机交互与智能体发展趋势:“如果人与机器的交互已经发展到通过语言即可实现,那么未来的想象空间将会非常广阔”。
视频链接:
https://www.bilibili.com/video/BV17wrpYKE4V
百宝箱地址:
https://tbox.alipay.com/pro-about
在不改变原意的情况下,Datawhale 进行了如下微调和整理。
大模型的发展历程
好的,大家好,我是王月凡,我现在是负责蚂蚁集团百宝箱的技术负责人,然后今天我稍微共享一下屏幕,今天由我来给大家带来关于 AI Agent 的一个分享。
大语言模型的发展历程可以追溯到20世纪90年代。当时的自然语言处理(NLP)领域主要研究特定任务,以统计学和概率学为基础,构建出模型来完成诸如词频统计和简单句法分析等基本任务。
到2013年,NLP 技术开始向任务无关的特征学习方向发展,代表性成果包括 Word2Vec 和神经概率语言模型(NPLM)。这些模型具备一定的上下文建模能力,可以解决如文本分类和信息抽取等特定任务。这一阶段的进步为后续的大语言模型奠定了基础。
2018年,大语言模型进入了一个新的发展阶段,演化为具有可迁移能力的任务求解器。这一阶段的核心成果是预训练语言模型的出现,代表性模型包括 BERT 和第一、第二代的 GPT。尽管早期的 GPT 模型(如 GPT-2 和 GPT-3)在性能上仍较为局限(它们主要聚焦于特定领域任务的解决),但预训练与微调相结合的技术路线已经展现出强大的迁移学习能力,显著提升了 NLP 系统处理复杂任务的能力。
进入2020年,以 GPT-3.5 和 GPT-4 为代表的通用大语言模型取得了突破。这些模型凭借更大规模的参数和训练数据,在能力上实现飞跃,推动了诸如 ChatGPT 和 Claude 等模型的广泛应用。这类模型以提示词(Prompt)为交互基础,能够解决多种任务,从文本生成到复杂问题求解,覆盖了更为广泛的应用场景。
而当下,ChatGPT、千问、Kimi 等国内外的主流大语言模型,已经成为具备强大底层能力的典型代表,为各类 AI Agent 提供了技术支撑。
AI Agent的出现是弥补大模型的短板
我们已经见识到了大语言模型带来的强大能力,确实可以解决各种各样的问题。那么,为什么 AI Agent 还会出现呢?
其实,这就涉及到 OpenAI 提出的通用人工智能(AGI)的五级标准。AGI 的终极目标是创造一种能够像人类一样完成各种复杂任务,同时还能自然交流的通用人工智能。根据这个定义,AGI 的发展被分成了五个等级。
目前我们使用的大语言模型,比如 ChatGPT,大多停留在第一级和第二级,可以处理许多知识性的问题,它们的能力主要在于接收指令,根据预训练时学到的知识进行推理并给出答案。这种工作方式虽然和人类的思考有些相似,但它们在许多需要更高认知能力的任务上仍然力有不逮,比如无法长期记住信息,缺乏持续的记忆能力;面对复杂任务,难以像人类那样分解成具体的步骤并逐步完成,更不用说像人类一样灵活地调用各种工具,并将它们组合起来完成目标。
相比之下,AI Agent ,也就是“智能体”,是通向更高级智能的关键一步。通过引入行动能力、长期记忆机制和工具整合能力,AI Agent 能弥补当前大语言模型的短板,使得它们不仅能够回答问题,还可以真正去“做”事情。
更重要的是,AI Agent 能在处理复杂任务时展现出了接近人类的思维方式,比如记住上下文信息,制定详细计划,甚至协同多个工具完成目标。
可以说,AI Agent 的出现不仅让人工智能更接近人类的智能水平,也让它能够进入更多复杂而广泛的应用场景。
AI Agent=大模型+记忆+规划+工具使用
这张图从去年起就出现了,它非常清晰地定义了 AI Agent 本身。接下来我们聊聊智能体本身的几大核心能力。
首先,AI Agent 的基础能力来源于大语言模型。大语言模型在语言理解与生成方面具有显著优势,但也存在一些局限,例如记忆能力的不足。
AI Agent 的目标之一,就是赋予模型更接近人类的记忆能力,包括短期记忆和长期记忆。通过这些能力,AI Agent 能够像人类一样记住曾经与用户的对话以及用户的个性化需求,进而提供更贴合实际的服务。
其次,规划能力(Planning)是 AI Agent 的核心能力之一。智能体需要能够面对复杂问题,进行任务分解,将问题逐步具体化为多个可执行的子任务,并以“逐步完成”的方式解决每一项任务。这种能力使其不仅仅停留在静态的问答层面,而是能够动态处理复杂场景,展现出更强的任务执行能力。
此外,工具使用能力是 AI Agent 区别于传统大语言模型的重要特征之一。这种能力包括调用互联网工具以获取实时