LLM Agent
文章平均质量分 73
LLM中关于Agent的文章整理,主要是follow Agent的一些进展。
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Earl: Efficient Agentic Reinforcement Learning Systems for Large Language Models
智能体强化学习(Agentic RL)是大模型(LLM)后训练的关键技术,能通过多轮交互和工具使用提升模型推理、决策能力,但训练中存在两大瓶颈。上下文长度爆炸:多轮交互使上下文长度快速增长,导致内存占用激增(如Llama-3.1-70B模型在8192上下文长度下需354GB显存),易触发内存溢出(OOM),现有“硬限制+长度惩罚”方案会制约模型性能。原创 2025-11-15 08:30:00 · 129 阅读 · 0 评论 -
LLM-FS-Agent: A Deliberative Role-based Large Language Model Architecture for Transparent Feature
在机器学习流程中,高维数据这一普遍存在的难题常导致模型可解释性降低、效率受损。尽管大语言模型(LLMs)已在通过特征选择(FS)实现降维(DR)方面展现出潜力,但现有基于LLM的方法往往缺乏结构化推理能力,且无法为其决策提供透明的理由。本文提出LLM-FS-Agent,这是一种新型多智能体架构,专为可解释且稳健的特征选择设计。该系统通过协调多个LLM智能体开展结构化“辩论”发挥作用,每个智能体均在明确的角色范围内运作,能够共同评估特征相关性,并为特征选择结果提供详细依据。原创 2025-11-14 08:30:00 · 153 阅读 · 0 评论 -
DeepAgent: A General Reasoning Agent with Scalable Toolsets
现有大语言模型驱动的代理存在局限性:依赖预定义工作流、无法动态发现工具、长程交互中记忆管理不足、推理连贯性欠缺,难以适配真实世界复杂任务和大规模工具集。大推理模型已展现出强大的问题解决能力,但现实世界任务通常需要外部工具和长程交互。现有代理框架大多遵循预定义工作流,限制了自主完成全局任务的能力。本文提出 DeepAgent,一种端到端深度推理代理,能在单一连贯的推理过程中实现自主思考、工具发现和动作执行。原创 2025-10-30 10:51:56 · 55 阅读 · 0 评论 -
Agent Learning via Early Experience
模仿学习(IL/SFT):依赖专家标注数据,无需环境奖励但数据扩展性差,智能体无法通过与环境交互学习动作后果,难以泛化到未见过的场景,且高质量专家数据成本高。强化学习(RL):需环境提供可验证的奖励信号,虽能实现超人类性能(如AlphaGo),但现实场景中多数环境缺乏可靠奖励(如网页提交无反馈),且多轮交互任务存在长时序延迟,导致训练低效不稳定。自主智能体长期以来都是人工智能领域的核心目标,其旨在复杂环境中感知、行动和学习,无需人类干预即可完成任务。随着语言智能体。原创 2025-10-21 09:30:00 · 107 阅读 · 0 评论 -
Many LLMs Are More Utilitarian Than One
本文研究了大型语言模型(LLMs)在多智能体系统(LLM-MAS)中的集体道德判断机制,重点探讨群体 deliberation 是否会像人类群体一样出现“功利主义增强”(utilitarian boost)现象——即更倾向于认可为最大化多数人利益而违反道德规范的行为。研究设计了两组实验:单个LLM独立判断(Solo条件)和多个LLM通过多轮讨论达成共识(Group条件,成对或三人组),测试了6个主流模型(包括GPT-4.1、Llama3.3等)在经典道德困境中的表现。原创 2025-10-06 08:34:56 · 158 阅读 · 0 评论 -
Scaling Agents via Continual Pre-training
本文由阿里巴巴通义实验室团队撰写,聚焦大语言模型(LLMs)向智能体系统(agentic systems)的演进,针对现有基于通用基础模型的后训练方法(如SFT、RL)在智能体任务中表现不佳的问题,提出了智能体持续预训练(Agentic Continual Pre-training, Agentic CPT)范式,并基于此开发了深度研究智能体模型问题诊断:现有智能体模型(如WebSailor、GLM-4.5)依赖通用基础模型进行后训练,需同时学习多样智能体行为与对齐专家演示,存在优化冲突;原创 2025-09-29 09:30:00 · 154 阅读 · 0 评论 -
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
智能体强化学习(Agentic RL)的出现,标志着从应用于大型语言模型(LLMs)的传统强化学习(LLM RL)向新范式的转变。它将LLMs从被动的序列生成器,重新定义为嵌入复杂、动态环境中的自主决策智能体。本综述通过对比LLM RL的退化单步马尔可夫决策过程(MDPs)与定义Agentic RL的时间扩展型部分可观测马尔可夫决策过程(POMDPs),正式确立了这一概念转变。在此基础上,我们提出了一套全面的双重分类法:一种分类法围绕核心智能体能力构建,包括规划、工具使用、记忆、推理、自我提升和感知;原创 2025-09-16 08:30:00 · 205 阅读 · 0 评论 -
Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL
本文由OPPO AI Agent团队提出Chain-of-Agents(CoA,智能体链)新范式,旨在解决现有多智能体系统(MAS)和工具集成推理(TIR)模型的局限性,实现单模型内端到端的复杂问题解决。近年来,大型语言模型(LLM)和多智能体系统在深度研究、代码生成、数学推理等复杂问题解决任务中展现出卓越能力。然而,现有多智能体系统大多依赖人工提示/工作流设计与复杂的智能体框架构建,导致计算效率低下、能力有限,且无法从数据驱动学习中获益。本文提出Chain-of-Agents(CoA,智能体链)原创 2025-09-03 09:30:00 · 182 阅读 · 0 评论 -
A SURVEY OF SELF-EVOLVING AGENTS: ON PATH TO ARTIFICIAL SUPER INTELLIGENCE
核心维度框架:提出自进化代理的三大基础维度,即“进化什么(what to evolve)”“何时进化(when to evolve)”“如何进化(how to evolve)”。进化什么:涵盖代理的四大组件,包括模型(参数与能力更新)、上下文(记忆进化与提示词优化)、工具(工具的创建、掌握与选择)、架构(单代理与多代理系统的优化)。何时进化。原创 2025-09-01 08:30:00 · 378 阅读 · 0 评论 -
LTLCRIT: A TEMPORAL LOGIC-BASED LLM CRITIC FOR SAFE AND EFFICIENT EMBODIED AGENTS
本文提出了一种名为LTLCrit的模块化演员-批评家(actor-critic)架构,旨在提升大型语言模型(LLMs)在具身代理(embodied agents)长期规划任务中的安全性和效率。架构设计:由LLM演员(actor)和LTLCrit批评家(critic)组成。演员基于自然语言观察选择高层动作,批评家通过线性时序逻辑(LTL)分析完整轨迹,生成新的LTL约束,避免未来的不安全或低效行为。约束类型:包含人工指定的固定安全约束(如避免碰撞)和批评家自动生成的自适应效率约束(如减少冗余动作)。原创 2025-08-18 10:06:26 · 130 阅读 · 0 评论 -
Gradientsys: A Multi-Agent LLM Scheduler with ReAct Orchestration
我们提出了Gradientsys,一种下一代多智能体调度框架,该框架使用类型化的模型上下文协议(MCP)和基于ReAct的动态规划循环来协调各种专业AI代理。Gradientsys的核心是一个由LLM驱动的调度器,用于智能的一对多任务分配,支持异构代理(如PDF解析器、网页搜索模块、GUI控制器和网页构建器)的并行执行。该框架支持同步/异步混合执行,尊重代理的容量限制,并包含健壮的重试与重新规划机制,以优雅地处理故障。原创 2025-08-16 09:30:00 · 519 阅读 · 0 评论 -
Mirror in the Model: Ad Banner Image Generation via Reflective Multi-LLM and Multi-modal Agents
本文提出了一种名为的广告横幅图像自动生成框架,旨在解决现有生成模型在商业设计任务中存在的结构化布局、精确排版、品牌一致性等不足。MIMO-Core:一种分层多模态多代理系统,通过“生成-评估-修订”的迭代循环,模拟人类设计团队分工(内容创作、质量评估、定向优化),动态改进视觉元素;MIMO-Loop:高层协调层,通过启动多个MIMO-Core实例探索不同风格方向,结合多代理投票协议筛选劣质设计并共享信息,提升整体设计质量。原创 2025-08-11 09:45:00 · 54 阅读 · 0 评论 -
CodeAgents: A Token-Efficient Framework for Codified Multi-Agent Reasoning in LLMs
本文提出了CodeAgents,一种基于结构化伪代码的提示框架,旨在解决现有LLM提示策略在多智能体环境中存在的token效率低、模块化不足、可扩展性有限等问题。该框架将多智能体交互的核心组件(任务、计划、反馈、角色、工具调用等)编码为带有控制结构(如循环、条件)、布尔逻辑和类型变量的模块化伪代码,将松散的智能体计划转化为连贯、可解释、可验证的多智能体推理程序。原创 2025-08-06 16:00:00 · 41 阅读 · 0 评论 -
Control at Stake: Evaluating the Security Landscape of LLM-Driven Email Agents
本文是首篇针对LLM驱动的邮件代理(LLM email agents)的系统性安全研究。研究提出了邮件代理劫持(Email Agent Hijacking, EAH)攻击,即攻击者通过外部邮件资源覆盖邮件代理的原始提示词,远程控制代理并执行恶意操作,且用户无法察觉。为大规模评估EAH攻击的影响,研究团队设计了自动化评估工具EAHawk。原创 2025-08-07 08:30:00 · 124 阅读 · 0 评论 -
Exploring Advanced LLM Multi-Agent Systems Based on Blackboard Architecture
本文提出了一种基于黑板架构(blackboard architecture)的LLM多智能体系统(bMAS),并实现了首个实例LbMAS。黑板(Blackboard):分为公共空间(存储所有智能体可见的对话和知识)和私有空间(支持特定智能体辩论或反思),作为智能体共享信息的核心载体;智能体群(Agent Group):包含预定义角色(如规划者、决策者、批评者等)和任务相关生成的专家智能体,基于不同LLM随机初始化;控制单元(Control Unit)原创 2025-08-03 08:30:00 · 243 阅读 · 0 评论 -
OMS: On-the-fly, Multi-Objective, Self-Reflective Ad Keyword Generation via LLM Agent
本文针对赞助搜索广告(Sponsored Search Advertising, SSA)中的关键词生成问题,提出了一个名为OMS的框架。该框架具有即时性(On-the-fly)多目标性(Multi-Objective)和自反思性(Self-Reflective)三大核心特性,旨在解决现有基于大型语言模型(LLM)的关键词生成方法存在的三大局限:依赖大规模查询-关键词对数据、缺乏在线多目标性能监控与优化能力、关键词选择质量控制薄弱。智能聚类-排序模块。原创 2025-07-29 08:30:00 · 168 阅读 · 0 评论 -
Synergizing Logical Reasoning, Knowledge Management and Collaboration in Multi-Agent LLM System
本文探索了整合先进的多智能体系统(MAS)技术,以开发具备增强逻辑推理、长期知识保留和心智理论(ToM)能力的智能体团队。通过将这些核心组件与优化的通信协议相结合,我们创建了一个名为SynergyMAS的新型框架,该框架能促进协作团队合作和卓越的问题解决能力。通过一个产品开发团队的案例研究,我们证明了该系统的有效性——我们的方法显著提升了团队的性能和适应性。这些发现凸显了SynergyMAS在应对复杂现实挑战方面的潜力。原创 2025-07-22 08:30:00 · 172 阅读 · 0 评论 -
AgentSense: Virtual Sensor Data Generation Using LLM Agents in Simulated Home Environments
开发健壮且可泛化的基于智能家居的人类活动识别(HAR)系统的一个主要障碍是缺乏大规模、多样化的标记数据集。家庭布局、传感器配置和用户行为的可变性进一步增加了复杂性。为应对这些挑战,我们引入了AgentSense,这是一个虚拟数据生成管道,利用大型语言模型(LLM)生成多样化的人物角色。这些角色创建日常 routines,并分解为低级动作序列,在扩展了虚拟环境传感器的模拟家庭环境(X-VirtualHome)中执行。AgentSense 能够生成丰富的虚拟传感器数据集。原创 2025-07-03 09:30:00 · 157 阅读 · 0 评论 -
CREFT: Sequential Multi-Agent LLM for Character Relation Extraction
理解复杂的人物关系对叙事分析和高效的剧本评估至关重要,但现有的提取方法往往难以处理具有细微互动的长篇叙事。为应对这一挑战,我们提出了CREFT,一种利用专门的大型语言模型(LLM)智能体的新型顺序框架。首先,CREFT通过知识蒸馏构建基础角色图,然后迭代优化角色组成、关系提取、角色识别和组分配。在精心策划的韩剧数据集上的实验表明,CREFT在准确性和完整性方面均显著优于单智能体LLM基线。通过系统地可视化角色网络,CREFT简化了叙事理解并加速了剧本审查,为娱乐、出版和教育部门带来了实质性好处。原创 2025-06-21 08:30:00 · 163 阅读 · 0 评论 -
WEB-SHEPHERD: Advancing PRMs for Reinforcing Web Agents
本文聚焦于网络导航领域的过程奖励模型(PRM)研究,提出了首个专为评估网络代理轨迹设计的模型,并构建了配套的训练数据集和评估基准。问题背景:现有网络代理依赖多模态大语言模型(MLLM)作为奖励模型,存在速度慢、成本高、性能不足等问题,尤其在长程序列决策中表现不稳定。核心方法:作为过程奖励模型,通过结构化清单(Checklist)将用户指令分解为可解释的子目标,实现对代理轨迹的步骤级评估。:包含4万个步骤级偏好对和注释清单,覆盖多领域、多难度任务,支持PRM训练。原创 2025-06-06 08:30:00 · 152 阅读 · 0 评论 -
A Reputation System for Large Language Model-based Multi-agent Systems to Avoid the Tragedy
本文聚焦于基于大语言模型的多智能体系统(Generative Multi-Agent Systems, MASs)中“公地悲剧”问题,提出动态双层声誉框架RepuNet,通过智能体层面的声誉动态和系统层面的网络演化,结合直接交互与间接 gossip 机制,有效促进合作并避免资源过度开发。实验验证了RepuNet在资源共享和投资博弈场景中的有效性,揭示了合作集群形成、剥削者孤立及正向 gossip 偏好等新兴现象。摘要公地悲剧(个人自利导致集体灾难性后果)是人类社会普遍存在的挑战。原创 2025-06-04 08:30:00 · 214 阅读 · 0 评论 -
Multi-Agent Systems for Robotic Autonomy with LLMs
Abstract自大型语言模型(LLMs)问世以来,基于此类模型的研究一直备受学术界关注并产生了重要影响,尤其是在人工智能和机器人领域。本文提出了一种基于LLMs的多智能体框架,构建了一个集成系统,用于机器人任务分析、机械设计和路径生成。该框架包括三个核心智能体:任务分析器、机器人设计器和强化学习设计器。输出采用多模态结果格式,如代码文件或技术报告,以增强可读性和可用性。为了对比评估泛化能力,我们使用来自GPT和DeepSeek的模型进行了实验。原创 2025-05-22 17:52:41 · 169 阅读 · 0 评论 -
Beyond Self-Reports: Multi-Observer Agents for Personality Assessment in Large Language Models
评估大语言模型(LLMs)的人格特质受到越来越多的关注。然而,传统基于自我报告问卷的人格评估方法,可能由于内在偏差和元知识污染,无法捕捉其真实的行为细微差别。本文引入了一种新颖的多观察者框架,用于LLMs的人格评估,该框架受到心理学中知情者报告方法的启发。我们的方法不是仅仅依赖自我评估,而是使用多个配置了特定关系情境(如家庭、朋友或工作场所)的观察者代理,来模拟与主体LLM的互动场景。这些观察者进行对话,随后在大五人格维度上给出评分。我们的实验表明,LLMs在自我报告的人格评分中存在系统性偏差。原创 2025-05-02 09:30:00 · 168 阅读 · 0 评论 -
A Multi-agent Onboarding Assistant based on Large Language Models, Retrieval Augmented Generation
在软件工程中,有效的入职培训至关重要,但由于技术的快速发展,这一过程颇具难度。传统方法,如探索和研讨会,成本高昂、耗时费力,在大型项目中很快就会过时。我们提出了入职伙伴(Onboarding Buddy)系统,该系统利用大语言模型、检索增强生成以及自动化思维链方法来改进入职培训。它在开发环境中集成了动态的、特定上下文的支持,提供自然语言解释、代码见解和项目指导。我们的解决方案基于代理,能在最少人工干预的情况下提供定制化帮助。原创 2025-04-20 08:30:00 · 132 阅读 · 0 评论 -
Survey on Evaluation of LLM-based Agents
基于LLM的智能体代表了AI范式的转变,使自主系统能够在动态环境中进行规划、推理、使用工具并保持记忆。基础能力(规划、工具使用、自我反思、记忆);领域特定基准(网页、软件工程、科学、对话代理);通用智能体评估;评估框架。研究揭示了动态评估趋势(如更真实的挑战场景和实时基准),并指出未来需解决的关键问题:成本效率、安全性、鲁棒性及细粒度评估方法的开发。本综述为智能体评估的快速演进提供了全景图,指明了研究方向。原创 2025-04-01 09:30:00 · 247 阅读 · 0 评论 -
Collab-Overcooked: Benchmarking and Evaluating Large Language Models as Collaborative Agents
基于大语言模型(LLMs)的智能体系统在超越传统自然语言处理任务的现实应用中取得了巨大进展。本文提出了一种新的由大语言模型驱动的多智能体系统(LLM-MAS)基准测试平台Collab-Overcooked,它基于广受欢迎的Overcooked-AI游戏构建,在交互式环境中设置了更具实用性和挑战性的任务。Collab-Overcooked从两个全新的角度扩展了现有基准。第一,它提供了一个支持多种任务和目标的多智能体框架,并鼓励通过自然语言通信进行协作。原创 2025-03-19 08:30:00 · 186 阅读 · 0 评论 -
OSWORLD: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
能够在最少人工干预下完成复杂计算机任务的自主智能体,有望变革人机交互方式,显著提升易用性和生产效率。然而,现有的基准测试要么缺乏交互式环境,要么局限于特定应用或领域的环境,无法反映现实世界中计算机使用的多样性和复杂性,进而限制了任务范围和智能体的可扩展性。为解决这一问题,我们推出了OSWORLD,这是首个专为多模态智能体设计的可扩展真实计算机环境,支持在Ubuntu、Windows和macOS等多种操作系统上进行任务设置、基于执行的评估以及交互式学习。原创 2025-03-05 16:44:35 · 591 阅读 · 0 评论 -
MLGym: A New Framework and Benchmark for Advancing AI Research Agents
我们介绍了Meta MLGym和MLGym Bench,这是一个新的框架和基准,用于评估和开发AI研究任务中的LLM代理。这是第一个用于机器学习(ML)任务的Gym环境,可以研究用于训练此类代理的强化学习(RL)算法。MLGym bench由13个不同的开放式人工智能研究任务组成,这些任务来自计算机视觉、自然语言处理、强化学习和博弈论等不同领域。解决这些任务需要现实世界的人工智能研究技能,例如生成新的想法和假设,创建和处理数据,实施机器学习方法,训练模型,运行实验,分析结果,并迭代这个过程以改进给定的任务。原创 2025-02-27 09:00:00 · 194 阅读 · 0 评论 -
The Fusion of Large Language Models and Formal Methods for Trustworthy AI Agents: A Roadmap
大型语言模型(LLMs)已经成为一种变革性的人工智能范式,通过其出色的语言理解和上下文生成能力深刻地影响着日常生活。尽管LLM表现出色,但它们面临着一个关键的挑战:由于其基于学习的性质的固有局限性,倾向于产生不可靠的输出。另一方面,形式化方法(FM)是一种成熟的计算范式,为系统的建模、指定和验证提供了数学上严格的技术。FM已广泛应用于关键任务软件工程、嵌入式系统和网络安全。然而,阻碍FM在现实环境中部署的主要挑战在于其陡峭的学习曲线、缺乏用户友好的界面以及效率和适应性问题。原创 2025-01-26 09:00:00 · 295 阅读 · 0 评论 -
Training Agents with Weakly Supervised Feedback from Large Language Models
大型语言模型(LLM)为创建能够通过迭代环境交互处理复杂任务的代理提供了一个有前途的基础。现有的方法要么要求这些代理模仿专家提供的轨迹,要么依赖明确的环境反馈进行强化学习,这限制了它们在游戏或代码生成等特定场景的应用。本文介绍了一种基于 LLM 的代理的新颖训练方法,使用来自批评者 LLM 的弱监督信号,绕过了对专家轨迹或明确反馈的需要。我们的智能体以迭代方式进行训练,最初通过环境交互生成轨迹。随后,批评家 LLM 选择良好轨迹的子集,然后将其用于更新代理,使它们能够在下一次迭代中生成改进的轨迹。原创 2025-01-02 10:15:00 · 206 阅读 · 0 评论 -
Large Language Model-Brained GUI Agents: A Survey
图形用户界面 (GUI) 长期以来一直是人机交互的核心,提供了一种直观且视觉驱动的方式来访问数字系统并与之交互。传统上,自动化 GUI 交互依赖于基于脚本或基于规则的方法,这种方法虽然对固定工作流程有效,但缺乏动态、实际应用程序所需的灵活性和适应性。大型语言模型 (LLM),特别是多模态模型的出现,开创了 GUI 自动化的新时代。他们在自然语言理解、代码生成、任务泛化和视觉处理方面表现出了卓越的能力。原创 2024-12-28 10:15:00 · 273 阅读 · 0 评论 -
VCounselor: A Psychological Intervention Chat Agent Based on a Knowledge-Enhanced LLM
对话式人工智能已经可以独立地与有心理问题的客户进行简短的对话,并提供基于证据的心理干预。本研究的主要目的是通过创建专门的代理 VCounselor 来提高大语言模型在心理干预中的有效性和可信度,以解决流行的大语言模型(例如 ChatGPT)在领域应用中观察到的局限性。我们通过提出新的情感交互结构和知识增强结构来实现这一目标。为了评估VCounselor,本研究比较了通用大语言模型、微调大语言模型和VCounselor知识增强型大语言模型。原创 2024-12-22 09:15:00 · 211 阅读 · 0 评论 -
OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback
大型语言和多模态模型的快速发展引发了人们对使用GPT4o等专有模型开发能够处理网络导航等现实场景的自主代理的浓厚兴趣。尽管最近的开源努力试图让代理具备探索环境的能力,并随着时间的推移不断改进,但他们正在合成环境中构建纯文本代理,在这种环境中,奖励信号是明确定义的。这些智能体很难推广到需要多模态感知能力且缺乏地面真实信号的现实环境中。本文介绍了一个开源框架,旨在促进多模态web代理的开发,该代理可以自主进行现实世界的探索并自我改进。我们首先通过模仿学习训练基础模型,以获得基本能力。原创 2024-11-06 10:30:00 · 125 阅读 · 0 评论 -
Artificial Agency and Large Language Models
大型语言模型 (LLM) 的到来引发了关于以人工方式实现代理的可能性的哲学辩论。在这项工作中,我们通过提出一个可以用作人工代理的阈值概念的理论模型来为辩论做出贡献。该模型将代理定义为其操作和目标始终受动态因素框架影响的系统,该框架由代理的可访问历史记录、其适应性库和外部环境组成。反过来,这个框架会受到代理采取的行动和它形成的目标的影响。我们借助该模型表明,最先进的 LLM 还不是代理,但它们有一些元素可以建议前进的方向。原创 2024-11-04 19:38:05 · 177 阅读 · 0 评论 -
WEB AGENTS WITH WORLD MODELS: LEARNING AND LEVERAGING ENVIRONMENT DYNAMICS IN WEB NAVIGATION
大型语言模型(LLM)最近在构建自主代理方面受到了广泛关注。然而,当前基于LLM的web代理在长期任务中的性能远非最佳,经常会产生错误,例如反复购买不可退款的机票。相比之下,人类可以避免这种不可逆转的错误,因为我们意识到自己行为的潜在结果(例如亏损),这也被称为“世界模型”。受此启发,我们的研究首先从初步分析开始,证实了当前LLM中缺乏世界模型(例如GPT-4o、Claude-3.5-Sonnet等)。然后,我们提出了一个世界模型增强(WMA)网络代理,它模拟了其行为的结果,以更好地做出决策。原创 2024-10-23 09:15:00 · 256 阅读 · 0 评论 -
Levels of AI Agents: from Rules to Large Language Models
AI 代理被定义为用于感知环境、做出决策和采取行动的人工实体。受 SAE(汽车工程师协会)自动驾驶 6 个级别的启发,AI 代理也根据效用和强度进行分类,分为以下级别:L0 — 无 AI,有工具(有感知)加动作;L1 使用基于规则的 AI;L2—让基于规则的AI被基于IL/RL的AI取代,具有额外的推理和决策能力;L3—应用基于LLM的AI而不是基于IL/RL的AI,额外设置内存和反射;L4——基于 L3,促进自主学习和泛化;L5 — 基于 L4,附加个性(情感 + 性格)和协作行为(多智能体)。原创 2024-10-14 11:05:03 · 365 阅读 · 0 评论 -
AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent
大型语言模型(LLM)推动了许多智能代理任务,如网络导航,但由于三个因素,大多数现有的代理在现实世界的网页中的表现远不能令人满意:(1)网页上动作的多功能性,(2)HTML文本超过了模型处理能力,以及(3)由于网络的开放域性质导致的决策复杂性。鉴于这一挑战,我们开发了AUTOWEBGLM,这是一款基于ChatGLM3-6B构建的GPT-4性能优于自动网络导航代理。受人类浏览模式的启发,我们设计了一种HTML简化算法来表示网页,简洁地保留了重要信息。我们采用混合人工智能方法为课程训练构建网络浏览数据。原创 2024-09-05 09:11:18 · 361 阅读 · 0 评论 -
KNOWLEDGEABLE AGENTS BY OFFLINE REINFORCEMENT LEARNING FROM LARGE LANGUAGE MODEL ROLLOUTS
强化学习(RL)训练智能体通过环境交互数据完成复杂任务,但其能力也受到可用数据范围的限制。为了获得知识渊博的代理,一种有前景的方法是利用大型语言模型(LLM)的知识。尽管之前的研究将LLM与RL相结合,但由于语义差距,这两个组件的无缝集成仍然具有挑战性。本文介绍了一种新方法,即语言模型展开中的知识代理(KALM),该方法以虚拟展开的形式从LLM中提取知识,代理可以通过离线强化学习方法轻松学习。KALM的主要挑战在于LLM的基础,因为LLM本质上仅限于文本数据,而环境数据通常包含LLM看不到的数值向量。原创 2024-08-07 20:15:13 · 246 阅读 · 0 评论 -
DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model
文本到图像(T2I)生成模型引起了广泛关注,并在学术研究内外得到了广泛应用。例如,Civitai社区是T2I创新的平台,目前拥有74492种不同的模型。然而,这种多样性在选择最合适的模型和参数方面带来了巨大的挑战,这一过程通常需要大量的试验。从大型语言模型(LLM)的工具使用研究中获得灵感,我们介绍了DiffAgent,这是一种LLM代理,旨在通过API调用在几秒钟内筛选准确的选择。DiffAgent利用了一种新颖的两阶段训练框架SFTA,使其能够根据人类偏好将T2I API响应与用户输入准确对齐。原创 2024-07-22 15:03:47 · 503 阅读 · 0 评论 -
AriGraph: Learning Knowledge Graph World Models with Episodic Memory for LLM Agents
生成式人工智能的进步拓宽了大型语言模型(LLM)在自主代理开发中的潜在应用。实现真正的自主性需要积累和更新从与环境的交互中获得的知识,并有效地利用它。目前基于LLM的方法利用过去的经验,使用完整的观察历史、总结或检索增强。然而,这些非结构化的记忆表示并不能促进复杂决策所必需的推理和规划。在我们的研究中,我们介绍了AriGraph,这是一种新方法,其中代理在探索环境的同时构建了一个整合语义和情景记忆的记忆图。原创 2024-07-18 14:44:37 · 517 阅读 · 0 评论
分享