大模型驱动的自主智能体全面调研

 人工智能咨询培训老师叶梓 转载标明出处

基于LLMs构建的自主智能体,有望实现类似人类的决策能力。图 1 展示了LLMs驱动的自主智能体领域的增长趋势。从2021年1月到2023年8月,不同颜色代表不同类别的智能体。例如,游戏智能体旨在模拟游戏玩家,而工具智能体主要关注工具使用。

然而,目前对于如何构建和评估LLMs驱动的自主智能体的研究还比较分散,缺乏系统性的总结。为了弥补这一空白,来自中国中国人民大学高瓴人工智能学院的研究团队进行了一项全面的研究调查。系统地回顾了LLMs驱动的自主智能体的研究工作。

大模型驱动的自主智能体的构建

架构

图 2 提供了一个统一的框架,展示了LLMs驱动的自主智能体的架构设计。该框架由以下几个模块组成:

  1. 档案模块:确定智能体的角色。
  2. 记忆模块:存储环境信息,帮助智能体回忆过去的行为,规划未来的行动。
  3. 规划模块:使智能体能够根据过去的经验做出决策。
  4. 行动模块:将智能体的决策转化为具体的输出。

档案模块

档案模块通过将角色信息写入提示(prompt)来影响LLM的行为。智能体的角色通常包括基本信息(如年龄、性别和职业)、心理信息(反映智能体的性格)和社会信息(详细描述智能体之间的关系)。

记忆模块

记忆模块对于智能体架构设计至关重要。它存储从环境中感知到的信息,并利用这些记忆来促进未来的行动。记忆模块可以帮助智能体积累经验、自我演化,并以更一致、合理和有效的方式行动。

记忆结构通常受到认知科学研究的启发,包括短期记忆和长期记忆。短期记忆类似于受限于变换器架构上下文窗口的输入信息。长期记忆类似于智能体可以根据需要快速查询和检索的外部向量存储。

  • 统一记忆:只模拟人类的短期记忆,通常通过上下文学习实现,记忆信息直接写入提示。
  • 混合记忆:明确模拟人类的短期和长期记忆。短期记忆临时缓冲最近的感知,而长期记忆随时间巩固重要信息。

规划模块

规划模块的目标是让智能体具备将复杂任务分解为简单子任务的能力。研究者根据智能体在规划过程中是否能接收反馈,将策略分为无反馈规划和有反馈规划。

  • 无反馈规划:智能体在执行动作后不接收可以影响其未来行为的反馈。
  • 有反馈规划:智能体在执行动作后可以接收来自环境、人类和模型的反馈。

行动模块

行动模块负责将智能体的决策转化为具体结果。它位于最下游位置,直接与环境互动。行动模块受档案、记忆和规划模块的影响。

能力获取

智能体能力获取主要分为两类:需要微调LLMs的能力和不需要微调的能力。

需要微调的能力获取

  • 使用人工标注的数据集进行微调:通过人工标注的数据集来微调智能体,使其更好地适应特定任务。

  • 使用LLM生成的数据集进行微调:利用LLM生成的数据集来微调智能体,这种方法成本较低,可以生成更多的样本。

  • 使用真实世界数据集进行微调:直接使用真实世界的数据集来微调智能体,使其更好地适应现实世界的任务。

无需微调的能力获取

  • 提示工程:通过精心设计的提示来增强智能体的能力,或释放LLMs的现有能力。
  • 机制工程:开发专门的模块,引入新的工作规则等策略,以增强智能体的能力。

表 1 提供了现有研究与上述分类法的对应关系,展示了不同研究在智能体构建方面的工作。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

优快云教学平台录播地址:https://edu.youkuaiyun.com/course/detail/39987 

自主智能体在不同领域的应用

社会科学

心理学:LLMs驱动的智能体可以用于进行模拟实验,提供心理健康支持等。例如,通过给LLMs分配不同的角色,让它们完成心理学实验,研究发现LLMs能够产生与涉及人类参与者的研究一致的结果。

政治学和经济学:LLMs驱动的智能体可以用于研究政治学和经济学,包括用于意识形态检测和预测投票模式。

社会模拟:LLMs驱动的智能体被用于构建虚拟环境,模拟社会现象,如信息传播。

法学:LLMs驱动的智能体可以作为法律决策过程中的辅助工具,帮助做出更明智的判断。

研究助理:LLMs驱动的智能体也被用作社会科学研究的多面手助理,从生成文章摘要到提取关键词,再到撰写详细的研究脚本。

自然科学

文档和数据管理:LLMs驱动的智能体展现出在语言理解和使用互联网及数据库工具处理文本方面的强大能力。

实验助手:LLMs驱动的智能体能够独立进行实验,为科学家的研究项目提供支持。

自然科学教育:LLMs驱动的智能体能够与人类流利沟通,常被用于开发基于代理的教育工具。

工程学

土木工程:LLMs驱动的智能体可用于设计和优化复杂的结构,如建筑、桥梁、大坝、道路。

计算机科学与软件工程:LLMs驱动的智能体在自动化编码、测试、调试和文档生成方面提供潜力。

工业自动化:LLMs驱动的智能体可用于实现生产过程的智能规划和控制。

机器人学和体现人工智能:近期的工作开发了更高效的强化学习代理,用于机器人学和体现人工智能。

表 2 展示了LLMs驱动的自主智能体的代表性应用。从心理学到工程学,不同领域的工作展示了智能体的广泛应用。 

LLMs驱动的自主智能体评估

图 5 提供了LLMs驱动的自主智能体应用(左侧)和评估策略(右侧)的全局概览。这展示了智能体在不同领域的广泛应用,从社会科学到工程学。

两种主要的评估方法:主观评估和客观评估。

主观评估

主观评估基于人类判断来衡量智能体的能力,适用于没有评估数据集或很难设计定量指标的场景。

  • 人工标注:此评估方法涉及人类评估者直接对不同智能体生成的输出进行打分或排名。例如,在研究中,作者们聘请了许多标注员,要求他们对与智能体能力直接相关的五个关键问题提供反馈。

  • 图灵测试:此评估策略要求人类评估者区分由智能体和人类创建的输出。如果在给定任务中,评估者无法区分智能体和人类的输出,这表明智能体在该任务上实现了类似人类的性能。

客观评估

客观评估使用可计算、可比较和可跟踪的定量指标来评估LLMs驱动的自主智能体的能力。进行客观评估时,有三个重要方面:评估指标、协议和基准。

  • 指标:为了客观评估智能体的有效性,设计合适的指标非常重要。理想的评估指标应准确反映智能体的质量,并与人类在现实世界中使用它们时的感受保持一致。

  • 协议:除了评估指标外,另一个重要的客观评估方面是如何利用这些指标。常见的评估协议包括现实世界模拟、社交评估、多任务评估和软件测试。

  • 基准:给定指标和协议后,选择合适的基准进行评估是至关重要的。例如,许多研究人员使用ALFWorld、IGLU和Minecraft等模拟环境作为基准来评估智能体的能力。

表 3 总结了先前工作与这些评估策略之间的对应关系。表格中使用了不同的符号来代表主观评估和客观评估的不同方面。

尽管LLMs驱动的自主智能体已经取得了显著的进展,但该领域仍处于初级阶段,面临许多挑战,包括角色扮演能力、人类对齐、提示的鲁棒性、幻觉问题、知识边界和效率等。

论文链接:A survey on large language model based autonomous agents

### 世界上最强大的AI模型排名及性能比较 当前关于AI大模型的性能评估主要集中在多个维度上,包括但不限于质量、速度、价格、对话能力、推理能力和编码能力等方面。这些指标能够全面反映一个模型的实际表现以及其适用场景。 #### 性能评估标准 在最新的研究和评测中,主流的大模型被从以下几个方面进行了详细的对比分析[^1]: - **质量**:衡量生成内容的相关性和准确性。 - **速度**:指代模型处理请求的速度及其延迟情况。 - **价格**:涉及使用成本,尤其是对于商业用途而言非常重要。 - **对话能力**:考察模型是否可以自然流畅地参与多轮次的人机交互。 - **推理能力**:测试逻辑推导与复杂问题解决的能力。 - **编码**:特别针对程序开发领域内的辅助编写功能效果如何。 #### 排名概述 根据最近公开的信息显示,在国际范围内具有竞争力的一些顶级AI大模型当中,中国的某些自主研发成果取得了显著成就并获得了高度认可。例如有报道指出,“中国AI大模型全球排名第一”,这表明国产技术力量正在快速崛起,并在全球舞台上占据了一席之地[^3]。 另外值得注意的是,除了官方机构或者企业内部开展的各项评比之外,还有来自社区驱动型项目如Hugging Face所提供的独立第三方视角下的评价体系。这类榜单通常会综合考虑更多元化的因素,并通过实际应用场景中的表现来决定最终得分。比如提到"Falcon 的性能根据EAI Harness、HELM 和BigBench 等开源基准进行了验证"[^4],这也说明了不同工具和技术手段可以帮助我们更清晰地认识各个参赛选手之间的差距所在。 以下是几个关键方面的具体描述: ##### 对话能力 优秀的对话系统不仅需要具备良好的语义理解力,还需要能够在长时间跨度内维持连贯一致的话题走向。部分领先产品在这方面展现出了极高的水准,它们不仅能准确捕捉用户的意图,还能适时引入背景知识以增强交流体验。 ##### 编码支持 随着软件行业自动化需求的增长,越来越多的企业希望借助人工智能的力量提高生产力水平。因此,那些擅长提供高质量代码建议甚至自动生成解决方案的服务商往往更容易吸引开发者群体的关注。一些知名系列版本凭借出色的算法设计赢得了广泛赞誉。 ```python def generate_code(prompt): """ 使用预训练好的大型语言模型生成Python代码片段 参数: prompt (str): 用户输入作为引导提示 返回值: str: 自动生成的一段有效代码字符串形式表示 """ pass # 实现细节省略 ``` 尽管如此,仍需强调一点——即没有任何单一型号能够完美适配所有类型的挑战;每种方案都有各自的优势范围局限条件等特性存在。所以在选择合适的技术伙伴之前务必充分调研清楚目标环境的具体要求才行! ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值