Agent 来自一种哲学概念,是个很古老的哲学术语,从哲学意义上讲,“代理”的概念涉及实体的自主性,具有行使意志、做出选择和采取行动的能力,而不是被动地对外部刺激做出反应。后来人们将这一概念引入计算机科学领域,用 Agent 概念指代整个人工智能,认为人工智能是“基于计算机的、表现出智能行为各个方面的 Agent”,因此可以理解为 AI Agent 是 Agent 这一哲学概念在人工智能领域的具体化,是能够感知周围环境,做出决策,然后采取行动的计算实体。AI Agent 由大语言模型驱动,能把目标自动分解成子任务,并调用工具来完成。这种应用框架把大模型的自然语言理解、内容生成、逻辑推理等核心能力外推到具体场景,辅以感知与行动技术,有端到端解决问题的潜力,因此被认为是大模型落地的重要模式。这引起国内外巨头、创业者和投资圈的热切关注,开始广泛布局AI Agent(或称智能体)框架、开发平台或具体应用。OpenAI在 2023年11月推出Assistant API以及后续的GPTs,进一步推高Agent热潮。
关于Agent基本共识是一种能够感知环境、自主决策、执行复杂任务的智能实体,现阶段Agent则以大语言模型(LLM)为核心驱动力,以记忆、规划和工具能力为关键模块。但目前大家看到的“Agent”与以上共识目标还有很大距离,大多是部分功能实现,或者是有Agent思想的方案。这也是Agent从理念到落地的必经阶段,本文将简要梳理国内外一年来的主要进展,初步构建行业结构,并分析下一步发展要解决的重点问题。
一、发展现状
关于 AI Agent 的发展现状,一方面在类型上,大致呈现了两种方向,一种侧重类似人的功能性的部分,如协同办公领域的钉钉 AI 助理等,另一种侧重类似人的社会性的部分, character.ai,允许用户设计自己的个性化 AI Chatbot 并与之互动,用户可以通过 Chatbot 和名人进行互动,也可以虚构形象进行角色扮演,以及斯坦福虚拟小镇 Smallville。
目前大模型的产品类型,主要有两种:
-
Copilot:翻译成副驾驶,助手。在帮助用户解决问题时起辅助作用,例如github copilot是帮助程序员编程的助手。
-
Agent:更像一个主驾驶,智能体,可以根据任务目标进行自主思考和行动,具有更强的独立性和执行复杂任务的能力。
在具体商业化形式上