WEB AGENTS WITH WORLD MODELS: LEARNING AND LEVERAGING ENVIRONMENT DYNAMICS IN WEB NAVIGATION

本文是LLM系列文章,针对《WEB AGENTS WITH WORLD MODELS: LEARNING AND LEVERAGING ENVIRONMENT DYNAMICS IN WEB NAVIGATION》的翻译。

摘要

大型语言模型(LLM)最近在构建自主代理方面受到了广泛关注。然而,当前基于LLM的web代理在长期任务中的性能远非最佳,经常会产生错误,例如反复购买不可退款的机票。相比之下,人类可以避免这种不可逆转的错误,因为我们意识到自己行为的潜在结果(例如亏损),这也被称为“世界模型”。受此启发,我们的研究首先从初步分析开始,证实了当前LLM中缺乏世界模型(例如GPT-4o、Claude-3.5-Sonnet等)。然后,我们提出了一个世界模型增强(WMA)网络代理,它模拟了其行为的结果,以更好地做出决策。为了克服将LLM训练为预测下一个观测值的世界模型的挑战,例如观测值之间的重复元素和长HTML输入,我们提出了一种以转换为中心的观测抽象,其中预测目标是自由形式的自然语言描述,专门突出时间步长之间的重要状态差异。在WebArena和Mind2Web上的实验表明,我们的世界模型在没有训练的情况下改善了代理的策略选择,并且与最近基于树搜索的代理相比,具有更高的成本和时间效率。这些代码可在以下网址公开获取https://github.com/kyle8581/WMA-Agents.

1 引言

2 相关工作

3 初步分析:当前的LLMS是否意识到网络导航中的环境动态?

4 世界模型增强WEB代理

5 实验

<

MEM1: Synergizing Memory and Reasoning for Efficient Long-Horizon Agents 是一项旨在通过结合记忆与推理机制来提升智能体在长期视野任务中表现的研究。该论文探讨了如何构建一个既能有效存储和检索信息又能进行复杂推理的系统,以应对那些需要长时间规划和决策的任务。 研究内容主要包括以下几个方面: 1. **记忆系统的设计**:设计了一种高效的记忆架构,允许智能体存储过去的经历和学习到的知识。这种记忆不仅限于短期记忆,还包括了长期记忆的构建,使得智能体能够在不同的时间尺度上利用历史信息[^1]。 2. **推理机制的集成**:为了使智能体能够基于存储的信息做出决策,论文提出了一种将记忆中的信息转化为行动计划的推理机制。这包括了对当前情境的理解、目标设定以及路径规划等过程。 3. **协同工作框架**:开发了一个框架,让记忆与推理两个组件可以协同工作。这个框架确保了记忆中的信息可以被有效地用于推理,同时推理的结果也可以反馈到记忆中,从而形成一个闭环的学习和适应过程。 4. **实验验证**:通过一系列实验验证了所提方法的有效性。这些实验通常涉及需要长期规划的游戏或模拟环境,在这些环境中,智能体必须记住过去的状态并据此做出未来的决策。 5. **性能评估**:论文还对提出的模型进行了详细的性能评估,比较了与其他现有方法相比,在处理长视野问题时的优势。 这项研究对于推动人工智能领域的发展具有重要意义,尤其是在创建更加自主和灵活的智能体方面提供了新的思路和技术手段。 ```python # 示例代码 - 假设的记忆访问接口(非实际实现) class MemoryReasoningAgent: def __init__(self): self.memory = {} # 简化版的记忆存储结构 def store_experience(self, key, experience): # 存储经验到记忆中 self.memory[key] = experience def retrieve_experience(self, query): # 根据查询检索相关经验 return [exp for key, exp in self.memory.items() if query in key] def reason_action(self, current_state): # 使用检索到的经验进行推理,决定下一步行动 # 这里仅作为示例返回随机动作 return "action_based_on_memory" # 创建智能体实例 agent = MemoryReasoningAgent() # 存储一些示例经验 agent.store_experience("forest_001", {"state": "in_forest", "action": "move_north", "reward": 10}) # 检索经验并推理动作 action = agent.reason_action("in_forest") print(f"Decided action: {action}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值