计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-22_can vlms play action role-playing games? take blac-优快云博客

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-22

引言:

全球最热销的国产游戏-《黑神话: 悟空》不仅给世界各地玩家们带来愉悦，而且对计算机人工智能研究也带来新的思考。在本期的论文速读中，我们带来一篇关于视觉语言模型（VLMs）应用于动作角色扮演游戏的研究论文。这篇论文探索视觉语言模型（VLMs）在玩动作角色扮演游戏时的优势与挑战，提出一个新颖的VARP（视觉动作角色扮演）智能体框架，包括动作规划系统和视觉轨迹系统。该框架展示了执行基本任务的能力，并在**90%**的简单和中等难度战斗场景中取得成功。

此外，在第7篇论文中，一种名为AgentCOT的新型框架被提出，通过将大型语言模型作为自主代理并采用多轮生成的方式，解决了传统链式思考提示在复杂推理任务中面临的幻觉问题、解释性限制和生成不可控的问题，并引入了增强策略来提升框架性能。

想要了解更多具体内容，欢迎查看本文后续相关内容。如果您对本系列感兴趣，欢迎三连击(点赞，关注和评论)，我们将持续为您带来计算机人工智能前沿-大语言模型研究-最新的学术论文速读内容。
在这里插入图片描述

1. RAG-Modulo: Solving Sequential Tasks using Experience, Critics, and Language Models

Authors: Abhinav Jain, Chris Jermaine, Vaibhav Unhelkar
在这里插入图片描述

RAG-Modulo: 利用经验、批评者和语言模型解决顺序任务

摘要
大型语言模型（LLMs）最近作为解决具有动作和观测不确定性的机器人任务的有前途的工具出现。基于LLM的决策方法（也称为LLM代理）与适当的批评者配对，已显示出在解决复杂、长期任务方面的潜力，且交互次数相对较少。然而，大多数现有的LLM代理缺乏保留和从过去交互中学习的能力——这是基于学习的机器人系统的基本特征。我们提出了RAG-Modulo，一个框架，通过过去交互的记忆和整合批评者来增强基于LLM的代理，以评估代理的决策。记忆组件允许代理自动检索并将相关的过去经验作为上下文示例纳入，为更有信息的决策提供上下文感知反馈。通过更新其记忆，代理随着时间的推移提高了性能，从而表现出学习。通过在具有挑战性的BabyAI和AlfWorld领域进行实验，我们展示了任务成功率和效率的显著提高，表明所提出的RAG-Modulo框架优于最先进的基线。

创新点

RAG-Modulo框架：提出了一个基于LLM的代理框架，它通过构建经验数据库（交互记忆）来学习，而不是通过反向传播。
检索机制：使LLM代理能够从记忆中获取与当前任务相关的上下文感知交互作为上下文示例，自动调整提示并减少手动努力。
实验验证：在AlfWorld和BabyAI的挑战性任务中展示了RAG-Modulo框架的性能，通过最少的环境交互展示了改进的性能。

算法模型
RAG-Modulo算法模型包括以下几个关键部分：

交互记忆（M）：存储过去交互的数据库，用于在任务的每一步引导机器人决策。
检索机制：在每个决策步骤中，从记忆中检索与当前任务和情况最相关的交互，用作上下文示例。
批评者和反馈：包括语法、语义和低级策略批评者，提供关于LLM选择的动作的反馈。
存储和检索：成功完成任务后，将交互存储在记忆中，以便将来检索。

实验效果
BabyAI-Synth：成功率（SR）0.48 ± 0.1，不可执行数（InExec）5.18 ± 1.18，平均长度（Len）14.82 ± 2.14。
BabyAI-BossLevel：成功率（SR）0.57 ± 0.1，不可执行数（InExec）3.74 ± 0.78，平均长度（Len）12.48 ± 1.49。
AlfWorld-Seen：成功率（SR）0.52 ± 0.08，不可执行数（InExec）5.36 ± 1.39，平均长度（Len）20.54 ± 1.71。
AlfWorld-Unseen：成功率（SR）0.54 ± 0.09，不可执行数（InExec）7.17 ± 1.73，平均长度（Len）19.64 ± 1.75。