WEB AGENTS WITH WORLD MODELS: LEARNING AND LEVERAGING ENVIRONMENT DYNAMICS IN WEB NAVIGATION

本文是LLM系列文章,针对《WEB AGENTS WITH WORLD MODELS: LEARNING AND LEVERAGING ENVIRONMENT DYNAMICS IN WEB NAVIGATION》的翻译。

摘要

大型语言模型(LLM)最近在构建自主代理方面受到了广泛关注。然而,当前基于LLM的web代理在长期任务中的性能远非最佳,经常会产生错误,例如反复购买不可退款的机票。相比之下,人类可以避免这种不可逆转的错误,因为我们意识到自己行为的潜在结果(例如亏损),这也被称为“世界模型”。受此启发,我们的研究首先从初步分析开始,证实了当前LLM中缺乏世界模型(例如GPT-4o、Claude-3.5-Sonnet等)。然后,我们提出了一个世界模型增强(WMA)网络代理,它模拟了其行为的结果,以更好地做出决策。为了克服将LLM训练为预测下一个观测值的世界模型的挑战,例如观测值之间的重复元素和长HTML输入,我们提出了一种以转换为中心的观测抽象,其中预测目标是自由形式的自然语言描述,专门突出时间步长之间的重要状态差异。在WebArena和Mind2Web上的实验表明,我们的世界模型在没有训练的情况下改善了代理的策略选择,并且与最近基于树搜索的代理相比,具有更高的成本和时间效率。这些代码可在以

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值