笔者(知乎:兽族机枪兵)所在的研究组最近也在火热地搞Agent中,同时笔者自己也有在搞Simulation。所以将最近投稿ICLR的一些Agent相关论文(尤其是Simulation)的投稿意见进行了汇总。
原文链接:https://zhuanlan.zhihu.com/p/666816570
ICLR,全程为国际表征学习大会(International Conference on Learning Representations)是深度学习领域的顶级会议。
ICLR24 虽还未审完搞,但是是 Openreview 可以查看。前一段时间,我们发布了多篇 ICLR2024 上关于 Agent 的相关论文。今天,我们继续和大家分享的是ICLR2024上18篇关于Simulation&Agent的论文合集。通过AMiner AI,一起来了解最新的前沿动态!
1. Avalon’s Game of Thoughts: Battle Against Deception through Recursive Contemplation
这篇论文研究了大型语言模型(LLMs)在处理潜在欺骗性信息时的局限性。尽管LLMs在作为智能代理方面取得了显著的成功,但普遍的假设是LLMs处理的信息是持续诚实的,忽略了人类社会和AI生成的内容中普遍存在的欺骗性或误导性信息。这种疏忽使LLMs容易受到恶意操纵,可能导致有害的结果。本研究利用复杂的Avalon游戏作为测试台,探索LLMs在欺骗性环境中的潜力。Avalon游戏中充满了错误信息,需要高级逻辑,呈现出一种“思维游戏”。受到人类在Avalon游戏中反身性思考和换位思考的有效性的启发,我们引入了一个新颖的框架——递归沉思(ReCon),以增强LLMs识别和对抗欺骗性信息的能力。ReCon结合了制定和精炼沉思过程;制定沉思产生初始思想和言语,而精炼沉思进一步打磨它们。此外,我们分别将这些过程纳入第一和第二阶视角转换。具体来说,第一阶允许LLM代理推断他人的心理状态,第二阶涉及理解他人如何看待代理的心理状态。在将ReCon与不同LLMs集成后,来自Avalon游戏的实验结果表明,ReCon在不进行额外微调和数据的情况下,有助于LLMs辨别和规避欺骗性信息。最后,我们为ReCon的有效性提供了一种可能的解释,并探讨了LLMs在安全性、推理、说话风格和格式方面的当前局限性,可能为后续研究提供见解。
链接:https://www.aminer.cn/pub/651b7dfd3fda6d7f0630b799/?f=cs
2. AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors
这篇论文主要研究了如何通过大型语言模型(LLM)增强的自主智能体(agents)实现多智能体协作,并探索在这种协作中出现的新兴行为。作者提出了一个名为 AgentVerse 的多智能体框架,该框架可以模仿人类群体动态,协作地调整其组成,以实现整体效果大于部分的目标。实验结果表明,该框架可以有效地部署多智能体团队,其性能优于单个智能体。此外,作者还深入探讨了在协作任务执行过程中,团队内个体智能体之间社交行为的产生。针对这些行为,作者讨论了一些可能的策略,以利用积极的行为并减轻负面行为,从而提高多智能体团队的协作潜力。
链接:https://www.aminer.cn/pub/64e432c73fda6d7f0600b8cd/?f=cs
3. Language Agents with Reinforcement Learning for Strategic Play in the Werewolf Game
这篇论文探讨了一种新的方法来开发具有战略思考能力的语言代理,以在流行的语言游戏“狼人杀”中进行战略游戏。狼人杀是一种涉及隐藏角色、合作与竞争、欺骗性沟通和多样化玩法的社交推理游戏。该代理首先使用大型语言模型(LLM)来推理潜在的欺骗行为并生成一组策略多样化的行动。然后通过种群基于训练学习一个强化学习策略,从候选行动中选择一个行动,以提高代理的决策能力。通过将LLM与强化学习策略相结合,我们的代理产生各种新兴策略,在与其他LLM代理的对战中赢得最高胜率,并在狼人杀游戏中对抗敌对的人类玩家时保持稳健。
链接:https://

本文汇总了ICLR2024上18篇关于Simulation&Agent的论文。这些论文围绕大型语言模型在智能体中的应用展开,涉及多智能体协作、战略游戏、风险评估、协调能力等多个方面,探讨了LLM在不同场景下的潜力、局限性及应对策略,为相关研究提供了新的见解。
最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



