本文来源公众号“AI生成未来”,仅用于学术分享,侵权删,干货满满。
原文链接:智能体人工智能(AGENT AI)全面综述:探索多模态交互的前沿技术
【说明】文章略长,干货满满,分为4个文章。
你能想象未来的AI不仅能听懂你的话、看懂你做的事,还能像人一样在真实和虚拟世界中灵活行动、与你自然互动吗?Agent AI的出现正让这个想象逐渐成为现实!它融合了多种前沿技术,在游戏、医疗、机器人等领域掀起了创新浪潮,但同时也面临着不少难题。想知道它究竟是如何做到的,又有哪些挑战吗?快来一探究竟!
早期AI系统研究目标分散,如今大语言模型(LLMs)和视觉语言模型(VLMs)的发展为创建新型AI智能体带来契机。Agent AI利用这些模型,融合多种能力,在游戏、机器人、医疗等领域展现出巨大潜力,有望重新定义人类体验、提升行业标准,但也面临技术和伦理等多方面的挑战。其研究对于推动AI发展、解决实际问题以及应对伦理挑战具有重要意义。
摘要&解读
多模态人工智能系统有望在日常生活中普及。将这些系统具象化为物理和虚拟环境中的智能体,是增强其交互性的一种有效途径。目前,许多系统利用现有的基础模型作为构建具身智能体的基本模块。将智能体融入这些环境有助于模型处理和解释视觉及上下文数据,这对于构建更复杂、更具情境感知能力的人工智能系统至关重要。例如,一个能够感知用户动作、人类行为、环境物体、音频表达和场景整体情感的系统,可用于在特定环境中为智能体的响应提供信息和指导。为加速基于智能体的多模态智能研究,我们将 “智能体人工智能” 定义为一类能够感知视觉刺激、语言输入和其他基于环境的数据,并能产生有意义的具身动作的交互系统。特别地,我们探索了通过整合外部知识、多感官输入和人类反馈,基于下一步具身动作预测来改进智能体的系统。我们认为,在有实际基础的环境中开发智能体人工智能系统,有助于减少大型基础模型的幻觉现象,以及它们生成与环境不符输出的倾向。新兴的智能体人工智能领域涵盖了多模态交互中更广泛的具身和智能体相关方面。除了在物理世界中行动和交互的智能体,我们还设想未来人们可以轻松创建任何虚拟现实或模拟场景,并与虚拟环境中的智能体进行交互。
-
• 研究背景:早期 AI 研究分散,难以形成统一智能系统。大语言模型(LLMs)和视觉语言模型(VLMs)的发展,在语言理解、视觉感知等方面取得显著成果,为构建能融合多种能力、在不同环境交互的新型 AI 智能体奠定基础,促使 Agent AI 这一新兴领域快速发展。
-
• 研究贡献:
-
• 定义与范式创新:明确定义 Agent AI,提出新的训练范式和框架,构建统一的端到端智能体系统训练范式,引入智能体令牌,为智能体训练提供新思路。
-
• 分类与应用拓展:对 Agent AI 进行全面分类,探索其在多领域的应用,推动 Agent AI 在游戏、机器人、医疗等行业的落地,拓展技术应用边界。
-
• 数据集构建:提出 “CuisineWorld” 和 “VideoAnalytica” 两个基准数据集,为 Agent AI 研究提供标准化评估资源,促进研究发展。
-
-
• 实现设计:
-
• 模型集成:将 Agent AI 与大型基础模型集成,针对集成中出现的问题,采用多种策略优化,如改进模型训练数据、引入外部知识等。
-
• 组件构建:基于 LLMs 和 VLMs 构建 Agent AI 组件,利用预训练和冻结的视觉、语言模型,学习连接模态的子网络,并可通过智能体令牌初始化子模块。
-
• 学习策略:采用强化学习、模仿学习等多种学习策略训练 Agent AI,通过解耦、泛化等过程实现智能体在不同任务和环境中的适应性和涌现行为。
-
-
• 实验结果:
-
• 游戏领域:在《我的世界》《血腥边缘》《微软飞行模拟器》等游戏中,基于 Agent AI 的系统能够理解游戏场景、预测动作、生成有意义内容,如通过 GPT - 4V 实现游戏动作预测、掩码视频预测、低层次动作预测等。
-
• 机器人领域:集成 ChatGPT 赋能的任务规划器的机器人教学系统,可有效规划机器人任务;利用 GPT - 4V 和 GPT - 4 的多模态任务规划器,能根据视频演示和文本指令生成机器人任务计划。
-
• 医疗领域:GPT - 4V 在医疗图像和视频理解中展现出一定的医学知识推理能力,但受安全训练限制,部分诊断功能受限。
-
• 多模态与自然语言处理领域:通过相关模型和方法,在多模态任务、视频语言实验和自然语言处理任务中取得进展,如 InstructBLIP 的视频微调变体可生成视频长文本响应 。
-
目录
-
1. 引言
-
2. 智能体人工智能集成
-
3. 智能体人工智能范式
-
4. 智能体人工智能学习
-
5. 智能体人工智能分类
-
6. 智能体人工智能应用任务
-
7. 跨模态、领域和现实的智能体人工智能
-
8. 智能体人工智能的持续学习和自我提升
-
9. 智能体数据集和排行榜
-
10. 更广泛的影响声明
1. 引言
1.1 动机
在1956年的达特茅斯会议上,人工智能系统被定义为能够从环境中收集信息并以有用方式与之交互的人造生命形式。受此定义启发,明斯基(Minsky)的麻省理工学院团队于1970年构建了一个名为 “Copy Demo” 的机器人系统,该系统能够观察 “积木世界” 场景,并成功重建所观察到的多面体积木结构。这个包含观察、规划和操作模块的系统表明,这些子问题极具挑战性,需要进一步研究。随后,人工智能领域逐渐分化为多个专业子领域,它们在很大程度上独立地在解决这些及其他问题上取得了重大进展,但过度的还原论模糊了人工智能研究的总体目标。
为了突破现状,有必要回归到受亚里士多德整体主义启发的人工智能基础。幸运的是,最近大语言模型(LLMs)和视觉语言模型(VLMs)的革命使得创建符合整体主义理想的新型人工智能智能体成为可能。抓住这一机遇,本文探索了集成语言能力、视觉认知、上下文记忆、直观推理和适应性的模型,并研究了利用大语言模型和视觉语言模型完成这种整体综合的潜力。在探索过程中,我们还重新审视了基于亚里士多德 “目的因”(即系统存在的目的)的系统设计,这一点在之前的人工智能发展中可能被忽视了。
随着强大的预训练大语言模型和视觉语言模型的出现,自然语言处理和计算机视觉领域迎来了复兴。大语言模型如今展现出了令人惊叹的解读现实世界语言数据细微差别的能力,其表现常常与人类专业知识相当,甚至超越人类(OpenAI,2023)。最近,研究人员发现,大语言模型在与特定领域知识和模块结合时,可以作为智能体在各种环境中执行复杂的动作和任务(Xi等人,2023)。这些场景涉及复杂的推理、对智能体角色及其环境的理解,以及多步规划,考验着智能体在环境限制下做出高度细致和复杂决策的能力(Wu等人,2023;Meta基础人工智能研究(FAIR)外交团队等人,2022)。
在这些初步成果的基础上,人工智能界正处于重大范式转变的边缘,从为被动、结构化任务创建人工智能模型,转向构建能够在多样复杂环境中承担动态、智能体角色的模型。在此背景下,本文研究了将大语言模型和视觉语言模型用作智能体的巨大潜力,重点关注融合了语言能力、视觉认知、上下文记忆、直观推理和适应性的模型。在游戏、机器人和医疗保健等领域利用大语言模型和视觉语言模型作为智能体,不仅为最先进的人工智能系统提供了严格的评估平台,还预示着以智能体为中心的人工智能将对社会和行业产生变革性影响。当这些模型得到充分利用时,它们可以重新定义人类体验,提升运营标准。这些模型带来的广泛自动化潜力预示着行业和社会经济动态将发生巨大变化。正如我们将在第11节中详细阐述的,这些进展将与多方面的考量交织在一起,不仅涉及技术层面,还包括伦理层面。我们深入研究智能体人工智能这些子领域的重叠部分,并在图1中展示它们的相互关联性。
1.2 背景
我们现在将介绍支持智能体人工智能的概念、理论背景和现代实现的相关研究论文。
-
• 大型基础模型:大语言模型和视觉语言模型一直在推动通用智能机器的发展(Bubeck等人,2023;Mirchandani等人,2023)。尽管它们是在大规模文本语料库上进行训练的,但它们卓越的问题解决能力并不局限于标准的语言处理领域。大语言模型有能力处理以前被认为只有人类专家或特定领域算法才能解决的复杂任务,从数学推理(Imani等人,2023;Wei等人,2022;Zhu等人,2022)到回答专业法律问题(Blair-Stanek等人,2023;Choi等人,2023;Nay,2022)。最近的研究表明,大语言模型可用于为机器人和游戏人工智能生成复杂的计划(Liang等人,2022;Wang等人,2023a,b;Yao等人,2023a;Huang等人,2023a),这标志着大语言模型作为通用智能体的一个重要里程碑。
-
• 具身人工智能:许多研究利用大语言模型进行任务规划(Huang等人,2022a;Wang等人,2023b;Yao等人,2023a;Li等人,2023a),特别是大语言模型在万维网规模的领域知识和新兴的零样本具身能力,可用于执行复杂的任务规划和推理。最近的机器人研究也利用大语言模型进行任务规划(Ahn等人,2022a;Huang等人,2022b;Liang等人,2022),将自然语言指令分解为一系列子任务,这些子任务可以是自然语言形式或Python代码形式,然后使用低级控制器执行这些子任务。此外,他们还结合环境反馈来提高任务性能(Huang等人,2022b;Liang等人,2022;Wang等人,2023a;Ikeuchi等人,2023)。
-
• 交互式学习:为交互式学习设计的人工智能智能体结合了机器学习技术和用户交互。最初,人工智能智能体在大型数据集上进行训练,该数据集包含各种类型的信息,具体取决于智能体的预期功能。例如,为语言任务设计的人工智能将在大规模文本数据语料库上进行训练。训练过程使用机器学习算法,可能包括像神经网络这样的深度学习模型。这些训练模型使人工智能能够识别模式、进行预测,并根据训练数据生成响应。人工智能智能体还可以从与用户的实时交互中学习。这种交互式学习可以通过多种方式实现:1)基于反馈的学习:人工智能根据用户的直接反馈调整其响应(Li等人,2023b;Yu等人,2023a;Parakh等人,2023;Zha等人,2023;Wake等人,2023a,b,c)。例如,如果用户纠正了人工智能的响应,人工智能可以利用这些信息改进未来的响应(Zha等人,2023;Liu等人,2023a)。2)观察学习:人工智能观察用户的交互并进行隐式学习。例如,如果用户经常提出类似的问题或以特定方式与人工智能交互,人工智能可能会调整其响应以更好地适应这些模式。这使得人工智能智能体能够理解和处理人类语言、多模态设置、解释跨现实上下文,并生成针对人类用户的响应。随着时间的推移,通过更多的用户交互和反馈,人工智能智能体的性能通常会持续提高。这个过程通常由人类操作员或开发人员监督,以确保人工智能学习得当,不会产生偏差或错误模式。
1.3 概述
多模态智能体人工智能(MAA)是一类基于对多模态感官输入的理解,在给定环境中生成有效动作的系统。随着大语言模型和视觉语言模型的出现,从基础研究到应用领域,众多多模态智能体人工智能系统被提出。虽然这些研究领域通过与各领域的传统技术集成而迅速发展(例如视觉问答和视觉语言导航),但它们在数据收集、基准测试和伦理视角等方面有着共同的关注点。在本文中,我们关注多模态智能体人工智能的一些代表性研究领域,即多模态、游戏(虚拟现实/增强现实/混合现实)、机器人和医疗保健,并旨在提供这些领域中常见问题的全面知识。通过这样做,我们期望了解多模态智能体人工智能的基本原理,并获得进一步推进其研究的见解。具体的学习成果包括:
-
• 多模态智能体人工智能概述:深入探讨其在当代应用中的原理和作用,使研究人员全面掌握其重要性和用途。
-
• 方法:通过游戏、机器人和医疗保健领域的案例研究,详细展示大语言模型和视觉语言模型如何增强多模态智能体人工智能。
-
• 性能评估:提供使用相关数据集评估多模态智能体人工智能的指导,重点关注其有效性和泛化能力。
-
• 伦理考量:讨论部署智能体人工智能的社会影响和伦理问题,强调负责任的开发实践。
-
• 新兴趋势和未来展望:对每个领域的最新发展进行分类,并讨论未来的发展方向。
基于计算机的行动和通用智能体在许多任务中都很有用。一个通用智能体要真正对用户有价值,它必须易于交互,并能在广泛的上下文和模态中进行泛化。我们旨在培育一个充满活力的研究生态系统,在智能体人工智能社区中营造一种共同的身份认同感和目标感。多模态智能体人工智能有潜力在各种上下文和模态中广泛应用,包括来自人类的输入。因此,我们相信这个智能体人工智能领域可以吸引不同领域的研究人员,促进一个充满活力的智能体人工智能社区和共同目标的形成。在学术界和工业界知名专家的带领下,我们期望本文能为所有研究人员带来互动性强、内容丰富的体验,包括智能体指令、案例研究、任务环节和实验讨论,确保提供全面且引人入胜的学习体验。
本文旨在提供关于智能体人工智能领域当前研究的全面知识。为此,本文的其余部分组织如下。第2节概述了智能体人工智能如何从与相关新兴技术(特别是大型基础模型)的集成中获益。第3节描述了我们为训练智能体人工智能提出的新范式和框架。第4节概述了智能体人工智能训练中广泛使用的方法。第5节对各种类型的智能体进行分类和讨论。第6节介绍智能体人工智能在游戏、机器人和医疗保健领域的应用。第7节探讨研究社区为开发通用智能体人工智能所做的努力,这种智能体能够跨多种模态、领域应用,并弥合模拟与现实之间的差距。第8节讨论智能体人工智能的潜力,它不仅依赖于预训练的基础模型,还能通过与环境和用户的交互不断学习和自我提升。第9节介绍我们为训练多模态智能体人工智能而设计的新数据集。第11节讨论人工智能智能体的伦理考量、本文的局限性和社会影响等热门话题。
2. 智能体人工智能集成
先前研究提出的基于大语言模型和视觉语言模型的基础模型,在具身人工智能领域仍表现出有限的性能,特别是在理解、生成、编辑以及在未见环境或场景中进行交互方面(Huang等人,2023a;Zeng等人,2023)。因此,这些局限性导致人工智能智能体的输出不尽如人意。当前以智能体为中心的人工智能建模方法侧重于直接可访问且定义明确的数据(例如世界状态的文本或字符串表示),并且通常使用从大规模预训练中学到的与领域和环境无关的模式,来预测每个环境的动作输出(Xi等人,2023;Wang等人,2023c;Gong等人,2023a;Wu等人,2023)。在(Huang等人,2023a)中,我们研究了结合大型基础模型进行知识引导的协作和交互式场景生成的任务,并展示了有前景的结果,表明基于知识的大语言模型智能体可以提高2D和3D场景理解、生成和编辑的性能,以及其他人与智能体的交互性能(Huang等人,2023a)。通过集成智能体人工智能框架,大型基础模型能够更深入地理解用户输入,从而形成一个复杂且自适应的人机交互系统。大语言模型和视觉语言模型的新兴能力在生成式人工智能、具身人工智能、多模态学习的知识增强、混合现实生成、文本到视觉编辑、游戏或机器人任务中的2D/3D模拟的人机交互中发挥着重要作用。智能体人工智能在基础模型方面的最新进展为解锁具身智能体的通用智能提供了迫切的催化剂。大型行动模型或智能体 - 视觉 - 语言模型为通用具身系统(如在复杂环境中的规划、问题解决和学习)开辟了新的可能性。智能体人工智能在元宇宙中进一步探索,并为早期的通用人工智能(AGI)提供了路径。
2.1 无限智能体人工智能
人工智能智能体具有基于其训练和输入数据进行解释、预测和响应的能力。尽管这些能力不断进步,但重要的是要认识到它们的局限性以及训练数据的影响。人工智能智能体系统通常具有以下能力:1)预测建模:人工智能智能体可以根据历史数据和趋势预测可能的结果或建议下一步行动。例如,它们可能预测文本的续写、问题的答案、机器人的下一步动作或场景的解决方案。2)决策能力:在某些应用中,人工智能智能体可以根据其推断做出决策。通常,智能体将基于最有可能实现特定目标的方式做出决策。对于像推荐系统这样的人工智能应用,智能体可以根据对用户偏好的推断来决定推荐哪些产品或内容。3)处理歧义:人工智能智能体通常可以通过基于上下文和训练推断最可能的解释来处理模糊输入。然而,它们的这种能力受到训练数据和算法范围的限制。4)持续改进:虽然一些人工智能智能体具有从新数据和交互中学习的能力,但许多大语言模型在训练后不会持续更新其知识库或内部表示。它们的推断通常仅基于最后一次训练更新时可用的数据。
我们在图2中展示了用于多模态和跨现实无关集成的增强交互式智能体及其涌现机制。人工智能智能体为每个新任务收集大量训练数据的成本可能很高,在许多领域甚至是不可能的。在这项研究中,我们开发了一种无限智能体,它学习将记忆信息从通用基础模型(例如GPT-X、DALL-E)转移到新的领域或场景,以用于物理或虚拟世界中的场景理解、生成和交互式编辑。
这种无限智能体在机器人领域的一个应用是RoboGen(Wang等人,2023d)。在这项研究中,作者提出了一个管道,自主运行任务命题、环境生成和技能学习的循环。RoboGen致力于将大型模型中嵌入的知识转移到机器人领域。
2.2 智能体人工智能与大型基础模型
最近的研究表明,大型基础模型在创建数据方面起着至关重要的作用,这些数据可作为确定智能体在环境约束下行动的基准。例如,在机器人操作(Black等人,2023;Ko等人,2023)和导航(Shah等人,2023a;Zhou等人,2023a)中使用基础模型。举例来说,Black等人使用图像编辑模型作为高级规划器来生成未来子目标的图像,从而指导低级策略(Black等人,2023)。对于机器人导航,Shah等人提出了一种系统,该系统使用大语言模型从文本中识别地标,并使用视觉语言模型将这些地标与视觉输入相关联,通过自然语言指令增强导航能力(Shah等人,2023a)。
2.2.1幻觉
生成文本的智能体常常容易出现幻觉现象,即生成的文本毫无意义或与提供的源内容不符(Raunak等人,2021;Maynez等人,2020)。幻觉可以分为两类:内在幻觉和外在幻觉(Ji等人,2023)。内在幻觉是指与源材料相矛盾的幻觉,而外在幻觉则是指生成的文本包含源材料中原本没有的额外信息。
一些有望降低语言生成中幻觉率的方法包括使用检索增强生成(Lewis等人,2020;Shuster等人,2021),或通过外部知识检索使自然语言输出更有依据的其他方法(Dziri等人,2021;Peng等人,2023)。一般来说,这些方法试图通过检索额外的源材料,并提供检查生成的响应与源材料之间是否存在矛盾的机制,来增强语言生成能力。
在多模态智能体系统中,视觉语言模型也被证明会出现幻觉(Zhou等人,2023b)。基于视觉的语言生成中出现幻觉的一个常见原因是过度依赖训练数据中对象和视觉线索的共现(Rohrbach等人,2018)。仅依赖预训练的大语言模型或视觉语言模型,且对特定环境进行有限微调的人工智能智能体,特别容易受到幻觉的影响,因为它们依靠预训练模型的内部知识库来生成动作,可能无法准确理解其部署环境中的世界状态动态。
2.2.2偏差与包容性
基于大语言模型或大型多模态模型(LMMs)的人工智能智能体,因其设计和训练过程中固有的几个因素而存在偏差。在设计这些人工智能智能体时,我们必须注重包容性,关注所有终端用户和利益相关者的需求。在人工智能智能体的背景下,包容性是指确保智能体的响应和交互具有包容性、尊重性,并对来自不同背景的广泛用户群体敏感的措施和原则。我们列出了智能体偏差和包容性的关键方面如下:
-
• 训练数据:基础模型在从互联网收集的大量文本数据上进行训练,这些数据包括书籍、文章、网站和其他文本来源。这些数据往往反映了人类社会中存在的偏差,模型可能会无意中学习并重现这些偏差,包括与种族、性别、民族、宗教和其他个人属性相关的刻板印象、偏见和片面观点。特别是,通过在互联网数据(通常仅为英文文本)上进行训练,模型隐含地学习了西方、受过教育、工业化、富裕和民主(WEIRD)社会的文化规范(Henrich等人,2010),这些社会在互联网上的存在比例过高。然而,必须认识到,人类创建的数据集不可能完全没有偏差,因为它们常常反映了最初生成和/或汇编数据的个人的社会偏见和倾向。
-
• 历史和文化偏见:人工智能模型在来自不同内容的大型数据集上进行训练。因此,训练数据通常包括来自各种文化的历史文本或材料。特别是,来自历史来源的训练数据可能包含代表特定社会文化规范、态度和偏见的冒犯性或贬损性语言。这可能导致模型延续过时的刻板印象,或无法完全理解当代文化的转变和细微差别。
-
• 语言和上下文限制:语言模型可能难以理解和准确表达语言中的细微差别,如讽刺、幽默或文化典故。这可能导致在某些语境中的误解或有偏差的响应。此外,许多口语方面的内容无法被纯文本数据捕捉,这导致人类对语言的理解与模型对语言的理解之间可能存在脱节。
-
• 政策和指南:人工智能智能体在严格的政策和指南下运行,以确保公平性和包容性。例如,在生成图像时,有规定要求对人物的描绘多样化,避免与种族、性别和其他属性相关的刻板印象。
-
• 过度泛化:这些模型倾向于根据在训练数据中看到的模式生成响应。这可能导致过度泛化,即模型可能产生似乎对某些群体进行刻板概括或做出宽泛假设的响应。
-
• 持续监测和更新:人工智能系统不断受到监测和更新,以解决任何新出现的偏差或包容性问题。用户的反馈和人工智能伦理方面的持续研究在这一过程中起着至关重要的作用。
-
• 主导观点的放大:由于训练数据通常包含来自主导文化或群体的更多内容,模型可能更偏向于这些观点,这可能会导致对少数群体观点的代表性不足或错误呈现。
-
• 符合伦理和包容性的设计:人工智能工具的设计应以伦理考量和包容性为核心原则,包括尊重文化差异、促进多样性,并确保人工智能不会延续有害的刻板印象。
-
• 用户指南:也会指导用户以促进包容性和尊重的方式与人工智能进行交互,包括避免提出可能导致有偏差或不适当输出的请求。此外,这有助于减少模型从用户交互中学习有害内容的情况。
尽管采取了这些措施,人工智能智能体仍然存在偏差。智能体人工智能研究和开发方面的持续努力,主要集中在进一步减少这些偏差,并增强智能体人工智能系统的包容性和公平性。减轻偏差的措施包括:
-
• 多样化和包容性的训练数据:努力在训练数据中纳入更多样化和包容性的来源。
-
• 偏差检测和纠正:持续的研究致力于检测和纠正模型响应中的偏差。
-
• 伦理准则和政策:模型通常受伦理准则和政策的约束,旨在减轻偏差,并确保交互具有尊重性和包容性。
-
• 多样化的代表性:确保人工智能智能体生成的内容或提供的响应,能够代表广泛的人类经验、文化、种族和身份。这在图像生成或叙事构建等场景中尤为重要。
-
• 偏差缓解:积极致力于减少人工智能响应中的偏差,包括与种族、性别、年龄、残疾、性取向和其他个人特征相关的偏差,目标是提供公平和平衡的响应,避免延续刻板印象或偏见。
-
• 文化敏感性:设计人工智能时考虑文化敏感性,承认并尊重文化规范、实践和价值观的多样性,包括理解并恰当地回应文化典故和细微差别。
-
• 可及性:确保人工智能智能体对不同能力的用户都是可访问的,包括残疾用户。这可能涉及纳入一些功能,使视力、听力、运动或认知障碍的人更容易进行交互。
-
• 基于语言的包容性:支持多种语言和方言,以满足全球用户的需求,并对语言中的细微差别和变化保持敏感(Liu等人,2023b)。
-
• 符合伦理和尊重性的交互:对智能体进行编程,使其以符合伦理和尊重的方式与所有用户交互,避免可能被视为冒犯、有害或不尊重的响应。
-
• 用户反馈和适应:纳入用户反馈,不断提高人工智能智能体的包容性和有效性,包括从交互中学习,以更好地理解和服务多样化的用户群体。
-
• 遵守包容性指南:遵守为人工智能智能体制定的包容性指南和标准,这些通常由行业组织、伦理委员会或监管机构设定。
尽管做出了这些努力,重要的是要意识到响应中可能存在的偏差,并以批判性思维进行解读。人工智能智能体技术和伦理实践的不断改进,旨在随着时间的推移减少这些偏差。智能体人工智能包容性的一个总体目标,是创建一个尊重并对所有用户可访问的智能体,无论他们的背景或身份如何。
2.2.3数据隐私与使用
人工智能智能体的一个关键伦理考量,涉及理解这些系统如何处理、存储以及潜在地检索用户数据。我们在下面讨论关键方面:
-
• 数据收集、使用和目的:在使用用户数据来提高模型性能时,模型开发者会访问人工智能智能体在生产过程中与用户交互时收集的数据。一些系统允许用户通过用户账户或向服务提供商提出请求来查看自己的数据。重要的是要清楚人工智能智能体在这些交互过程中收集了哪些数据,这可能包括文本输入、用户使用模式、个人偏好,有时还包括更敏感的个人信息。用户还应该了解从他们的交互中收集的数据是如何使用的。如果由于某种原因,人工智能对特定个人或群体持有错误信息,应该有一个机制,让用户在发现后帮助纠正这些信息。这对于准确性以及尊重所有用户和群体都很重要。检索和分析用户数据的常见用途包括改善用户交互、个性化响应和系统优化。对于开发者来说,确保数据不被用于用户未同意的目的(如未经请求的营销)极为重要。
-
• 存储和安全:开发者应该清楚用户交互数据存储在哪里,以及采取了哪些安全措施来保护数据免受未经授权的访问或泄露,这包括加密、安全服务器和数据保护协议。确定智能体数据是否与第三方共享以及在何种条件下共享也非常重要,这应该是透明的,并且通常需要用户同意。
-
• 数据删除和保留:用户了解用户数据存储的时长以及如何请求删除数据也很重要。许多数据保护法律赋予用户 “被遗忘权”,这意味着他们可以请求删除自己的数据。人工智能智能体必须遵守欧盟的《通用数据保护条例》(GDPR)或加利福尼亚州的《加州消费者隐私法案》(CCPA)等数据保护法律,这些法律规定了数据处理实践和用户对其个人数据的权利。
-
• 数据可移植性和隐私政策:此外,开发者必须创建人工智能智能体的隐私政策,记录并向用户解释如何处理他们的数据,这应该详细说明数据收集、使用、存储和用户权利。开发者应该确保在收集数据(特别是敏感信息)时获得用户同意。用户通常可以选择退出或限制提供的数据。在某些司法管辖区,用户甚至有权以可转移到另一个服务提供商的格式请求获取自己的数据副本。
-
• 匿名化:对于用于更广泛分析或人工智能训练的数据,理想情况下应该进行匿名化处理,以保护个人身份。开发者必须了解他们的人工智能智能体在交互过程中如何检索和使用历史用户数据,这可能用于个性化或提高响应的相关性。
总之,理解人工智能智能体的数据隐私,涉及了解用户数据如何被收集、使用、存储和保护,并确保用户了解他们在访问、纠正和删除数据方面的权利。了解用户和人工智能智能体的数据检索机制,对于全面理解数据隐私也至关重要。
2.2.4可解释性和可解释性
-
• 模仿学习→解耦:智能体通常在强化学习(RL)或模仿学习(IL)中,通过连续的反馈循环进行训练,从随机初始化的策略开始。然而,这种方法在不熟悉的环境中获取初始奖励时面临挑战,特别是当奖励稀疏或仅在长时间交互结束时才可用时。因此,一种更好的解决方案是使用通过模仿学习训练的无限记忆智能体,它可以从专家数据中学习策略,利用新兴的基础设施更好地探索和利用未见过的环境空间,如图3所示。借助专家特征,智能体可以更好地探索并利用未见过的环境空间。智能体人工智能可以直接从专家数据中学习策略和新的范式流程。
-
传统的模仿学习中,智能体通过模仿专家示范者的行为来学习策略。然而,直接学习专家策略并不总是最佳方法,因为智能体可能无法很好地泛化到未见的情况。为了解决这个问题,我们提出使用带有上下文提示或隐式奖励函数的智能体进行学习,该函数可以捕捉专家行为的关键方面,如图3所示。这为无限记忆智能体提供了从专家示范中学习的用于任务执行的物理世界行为数据,有助于克服现有模仿学习的缺点,如需要大量专家数据以及在复杂任务中可能出现的错误。智能体人工智能背后的关键思想有两个部分:1)无限智能体将物理世界的专家示范收集为状态 - 动作对;2)虚拟环境模仿智能体生成器。模仿智能体产生模仿专家行为的动作,而智能体通过最小化专家动作与所学策略生成的动作之间的差异损失函数,学习从状态到动作的策略映射。
-
• 解耦→泛化:智能体不是依赖特定任务的奖励函数,而是从专家示范中学习,这些示范提供了涵盖各种任务方面的多样化状态 - 动作对。然后,智能体通过模仿专家行为学习将状态映射到动作的策略。模仿学习中的解耦是指将学习过程与特定任务的奖励函数分离,使策略能够在不同任务中泛化,而无需明确依赖特定任务的奖励函数。通过解耦,智能体可以从专家示范中学习,并学习一种适应各种情况的策略。解耦实现了迁移学习,即在一个领域学习的策略可以通过最小的微调适应其他领域。由于智能体不依赖特定的奖励函数,它可以适应奖励函数或环境的变化,而无需进行大量重新训练,这使得学习到的策略在不同环境中更加稳健和可泛化。在这种情况下,解耦是指在学习过程中分离两个任务:学习奖励函数和学习最优策略。
-
• 泛化→涌现行为:泛化解释了涌现属性或行为如何从更简单的组件或规则中产生。关键在于识别支配系统行为的基本元素或规则,如单个神经元或基本算法。因此,通过观察这些简单组件或规则如何相互作用,这些组件的相互作用往往会导致复杂行为的出现,而这些复杂行为仅通过检查单个组件是无法预测的。跨不同复杂程度的泛化使系统能够学习适用于这些层次的一般原则,从而导致涌现属性。这使系统能够适应新情况,展示了从更简单规则中出现更复杂行为的过程。此外,跨不同复杂程度的泛化能力有助于知识从一个领域转移到另一个领域,这有助于系统在适应新环境时出现复杂行为。
2.2.5推理增强
人工智能智能体的推理能力在于其基于训练和输入数据进行解释、预测和响应的能力。尽管这些能力不断进步,但重要的是要认识到它们的局限性以及训练数据的影响。特别是在大语言模型的背景下,它指的是基于训练数据和接收的输入得出结论、进行预测和生成响应的能力。人工智能智能体中的推理增强是指使用额外的工具、技术或数据来增强人工智能的自然推理能力,以提高其性能、准确性和实用性。这在复杂的决策场景中,或处理细微或专业内容时尤为重要。我们特别指出推理增强的重要来源如下:
-
• 数据丰富化:纳入额外的(通常是外部的)数据源可以提供更多的上下文或背景信息,帮助人工智能智能体做出更明智的推断,特别是在其训练数据可能有限的领域。例如,人工智能智能体可以从对话或文本的上下文中推断含义。它们分析给定的信息,并利用这些信息理解用户查询的意图和相关细节。这些模型擅长识别数据中的模式,并利用这种能力根据训练过程中学习到的模式,对语言、用户行为或其他相关现象进行推断。
-
• 算法增强:改进人工智能的基础算法,以进行更好的推断。这可能涉及使用更先进的机器学习模型,整合不同类型的人工智能(如将自然语言处理与图像识别相结合),或更新算法以更好地处理复杂任务。语言模型中的推理涉及理解和生成人类语言,包括把握语气、意图和不同语言结构的细微差别。
-
• 人在回路(HITL):在人类判断至关重要的领域(如伦理考量、创造性任务或模糊场景),引入人类输入来增强人工智能的推理特别有用。人类可以提供指导、纠正错误或提供智能体无法自行推断的见解。
-
• 实时反馈集成:利用来自用户或环境的实时反馈来增强推理,是在推理过程中提高性能的另一种有前景的方法。例如,人工智能可以根据实时用户响应或动态系统中的变化条件调整其建议。或者,如果智能体在模拟环境中采取的行动违反了某些规则,可以动态地给予反馈以帮助其纠正。
-
• 跨领域知识转移:在特定专业领域生成输出时,利用一个领域的知识或模型来改进另一个领域的推理可能特别有帮助。例如,为语言翻译开发的技术可能应用于代码生成,或者医学诊断中的见解可以增强机械的预测性维护。
-
• 针对特定用例的定制:为特定应用或行业定制人工智能的推理能力,可能涉及在专业数据集上训练人工智能,或微调其模型以更好地适应特定任务,如法律分析、医学诊断或财务预测。由于一个领域的特定语言或信息可能与其他领域有很大差异,在特定领域的信息上对智能体进行微调可能是有益的。
-
• 伦理和偏差考量:确保增强过程不会引入新的偏差或伦理问题非常重要。这涉及仔细考虑额外数据的来源,或新推理增强算法对公平性和透明度的影响。在进行推理时,特别是关于敏感话题,人工智能智能体有时必须考虑伦理问题,包括避免有害的刻板印象、尊重隐私和确保公平性。
-
• 持续学习和适应:定期更新和改进人工智能的能力,以跟上新的发展、不断变化的数据环境和不断演变的用户需求。
总之,人工智能智能体中的推理增强涉及通过额外数据、改进算法、人类输入和其他技术来增强其自然推理能力的方法。根据具体用例,这种增强通常对于处理复杂任务和确保智能体输出的准确性至关重要。
2.2.6监管
最近,智能体人工智能取得了重大进展,其与具身系统的集成,为通过更沉浸式、动态和引人入胜的体验与智能体进行交互开辟了新的可能性。为了加快这一进程,并简化智能体人工智能开发中的繁琐工作,我们提议开发下一代人工智能驱动的智能体交互管道。开发一种人机协作系统,使人类和机器能够进行有意义的交流和互动。该系统可以利用大语言模型或视觉语言模型的对话能力和广泛的动作,与人类玩家交流并识别他们的需求。然后,它将根据请求执行适当的动作来帮助人类玩家。
在将大语言模型/视觉语言模型用于人机协作系统时,必须注意这些模型就像黑盒一样,会产生不可预测的输出。在实际物理场景(如操作实际机器人)中,这种不确定性可能会成为关键问题。解决这一挑战的一种方法是通过提示工程来限制大语言模型/视觉语言模型的关注点。例如,在根据指令进行机器人任务规划时,据报道,在提示中提供环境信息比仅依赖文本能产生更稳定的输出(Gramopadhye和Szafir,2022)。这一报告得到了明斯基的人工智能框架理论(Minsky,1975)的支持,该理论表明,大语言模型/视觉语言模型要解决的问题空间是由给定的提示所定义的。另一种方法是设计提示,使大语言模型/视觉语言模型包含解释性文本,以便用户了解模型关注或识别的内容。此外,实施一个更高层次的模块,允许在人类指导下进行预执行验证和修改,有助于在这种指导下运行的系统的操作(图4)。
2.3 具有涌现能力的智能体人工智能
尽管交互式智能体人工智能系统的应用越来越广泛,但大多数已提出的方法在未见过的环境或场景中的泛化性能方面仍面临挑战。当前的建模实践要求开发者为每个领域准备大量数据集,以对模型进行微调或预训练;然而,这个过程成本高昂,如果是新领域,甚至是不可能的。为了解决这个问题,我们构建了交互式智能体,利用通用基础模型(ChatGPT、Dall-E、GPT-4等)的知识记忆来处理新场景,特别是用于生成人类和智能体之间的协作空间。我们发现了一种涌现机制——我们称之为 “混合现实与知识推理交互”,它有助于与人类协作,在复杂的现实世界环境中解决具有挑战性的任务,并能够探索未见过的环境以适应虚拟现实。对于这种机制,智能体学习:
-
1. 跨模态的微观反应:从明确的网络来源收集每个交互任务的相关个体知识(例如,理解未见过的场景),并通过对预训练模型的输出进行隐式推断。
-
2. 现实无关的宏观行为:改善语言和多模态领域的交互维度和模式,并根据角色特征、特定目标变量以及混合现实和大语言模型中协作信息的多样化影响进行调整。我们研究了结合各种OpenAI模型进行知识引导的交互式协同效应以生成协作场景的任务,并展示了有前景的结果,即交互式智能体系统如何在我们的设置中进一步提升大型基础模型的性能。它整合并提高了复杂自适应人工智能系统的泛化深度、意识和可解释性。
3. 智能体人工智能范式
在本节中,我们讨论一种用于训练智能体人工智能的新范式和框架。我们希望通过我们提出的框架实现几个目标:
-
1. 利用现有的预训练模型和预训练策略,有效地引导我们的智能体,使其对重要的模态(如文本或视觉输入)有有效的理解。
-
2. 支持足够的长期任务规划能力。
-
3. 纳入一个记忆框架,允许对学习到的知识进行编码并在以后检索。
-
4. 利用环境反馈有效地训练智能体,使其学习采取哪些行动。
我们在图5中展示了一个高层次的新智能体图表,概述了这样一个系统的重要子模块。
3.1 大语言模型和视觉语言模型
我们可以使用大语言模型或视觉语言模型来引导智能体的组件,如图5所示。特别是,大语言模型在任务规划方面表现出色(Gong等人,2023a),包含丰富的世界知识(Yu等人,2023b),并展示出令人印象深刻的逻辑推理能力(Creswell等人,2022)。此外,像CLIP(Radford等人,2021)这样的视觉语言模型提供了一个与语言对齐的通用视觉编码器,并具有零样本视觉识别能力。例如,像LLaVA(Liu等人,2023c)和InstructBLIP(Dai等人,2023)这样的最先进的开源多模态模型,依赖于冻结的CLIP模型作为视觉编码器。
3.2 智能体Transformer的定义
除了将冻结的大语言模型和视觉语言模型用于人工智能智能体之外,还可以使用单智能体Transformer模型,该模型将视觉令牌和语言令牌作为输入,类似于Gato(Reed等人,2022)。除了视觉和语言,我们添加了第三种通用类型的输入,我们将其表示为智能体令牌。从概念上讲,智能体令牌用于为智能体行为保留模型输入和输出空间的特定子空间。对于机器人技术或游戏玩法,这可以表示为控制器的输入动作空间。当训练智能体使用特定工具(如图像生成或图像编辑模型)或进行其他API调用时,也可以使用智能体令牌。如图7所示,我们可以将智能体令牌与视觉和语言令牌相结合,为训练多模态智能体人工智能生成统一的接口。与使用大型专有大语言模型作为智能体相比,使用智能体Transformer有几个优点。首先,该模型可以轻松定制,以适应那些可能难以用自然语言表示的特定智能体任务(例如,控制器输入或其他特定动作)。因此,智能体可以从环境交互和特定领域的数据中学习,以提高性能。其次,通过访问智能体令牌的概率,更容易理解模型采取或不采取特定行动的原因。第三,在某些领域,如医疗保健和法律,有严格的数据隐私要求。最后,相对较小的智能体Transformer可能比大型专有语言模型便宜得多。
3.3 智能体Transformer的创建
如图5所示,我们可以使用具有大语言模型和视觉语言模型引导的智能体的新范式,并利用大型基础模型生成的数据来训练智能体Transformer模型,以学习执行特定目标。在这个过程中,智能体模型被训练为针对特定任务和领域进行专门定制。这种方法允许利用预先存在的基础模型学习到的特征和知识。我们在下面分两步展示这个过程的简化概述:
-
1. 定义领域内的目标:为了训练智能体Transformer,需要在每个特定环境的背景下,明确定义智能体的目标和动作空间。这包括确定智能体需要执行的具体任务或动作,并为每个任务分配唯一的智能体令牌。此外,任何可以用于识别任务成功完成的自动规则或程序,都可以显著增加可用于训练的数据量。否则,将需要基础模型生成的数据或人工标注的数据来训练模型。在收集数据并能够评估智能体的性能后,持续改进的过程就可以开始了。
-
2. 持续改进:持续监控模型的性能并收集反馈是这个过程中至关重要的步骤。反馈应用于进一步的微调与更新。确保模型不会延续偏差或产生不符合伦理的结果也很关键。这需要仔细检查训练数据,定期检查输出中的偏差,并且如果需要,训练模型识别并避免偏差。一旦模型达到令人满意的性能,就可以将其部署到预期的应用中。持续监控仍然至关重要,以确保模型按预期执行,并便于进行必要的调整。关于这个过程、训练数据的来源以及智能体人工智能持续学习的更多细节,可以在第8节中找到。
参考资料
-
• 标题:AGENT AI: SURVEYING THE HORIZONS OF MULTIMODAL INTERACTION
-
• 作者:Zane Durante、Qiuyuan Huang、Naoki Wake、Ran Gong、Jae Sung Park、Bidipta Sarkar、Rohan Taori、Yusuke Noda、Demetri Terzopoulos、Yejin Choi、Katsushi Ikeuchi、Hoi Vo、Li Fei-Fei、Jianfeng Gao
-
• 单位:1. Stanford University;2. Microsoft Research, Redmond;3. University of California, Los Angeles;4. University of Washington;5. Microsoft Gaming
-
• 标签:人工智能;多模态交互;智能体;大语言模型;视觉语言模型
-
• 概述: 本文主要探讨了Agent AI这一新兴领域,涵盖其在多模态交互方面的研究进展、技术整合、训练范式、学习方法、应用任务,以及跨模态、跨领域和跨现实的研究,还讨论了数据集、伦理等相关问题。
-
• 链接:https://arxiv.org/pdf/2401.03568
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。