本文是LLM系列文章,针对《WEB AGENTS WITH WORLD MODELS: LEARNING AND LEVERAGING ENVIRONMENT DYNAMICS IN WEB NAVIGATION》的翻译。
具有世界模型的WEB代理:在WEB导航中学习和利用环境动态
摘要
大型语言模型(LLM)最近在构建自主代理方面受到了广泛关注。然而,当前基于LLM的web代理在长期任务中的性能远非最佳,经常会产生错误,例如反复购买不可退款的机票。相比之下,人类可以避免这种不可逆转的错误,因为我们意识到自己行为的潜在结果(例如亏损),这也被称为“世界模型”。受此启发,我们的研究首先从初步分析开始,证实了当前LLM中缺乏世界模型(例如GPT-4o、Claude-3.5-Sonnet等)。然后,我们提出了一个世界模型增强(WMA)网络代理,它模拟了其行为的结果,以更好地做出决策。为了克服将LLM训练为预测下一个观测值的世界模型的挑战,例如观测值之间的重复元素和长HTML输入,我们提出了一种以转换为中心的观测抽象,其中预测目标是自由形式的自然语言描述,专门突出时间步长之间的重要状态差异。在WebArena和Mind2Web上的实验表明,我们的世界模型在没有训练的情况下改善了代理的策略选择,并且与最近基于树搜索的代理相比,具有更高的成本和时间效率。这些代码可在以