Beyond A∗ : Better Planning with Transformers via Search Dynamics Bootstrapping

828 篇文章

已下架不支持订阅

Searchformer是一种Transformer模型,通过预测A星搜索动态,有效地解决复杂的规划任务,如Sokoban。它在93.7%的情况下找到最优解,比A星少用26.8%的搜索步骤。该模型通过学习A星搜索轨迹,展现出优于直接预测最优计划的性能,并能扩展到更复杂的决策任务。尽管存在计算成本和跟踪长度的挑战,但未来可能通过课程学习、改进的启发式或集成MCTS来优化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Beyond A∗ : Better Planning with Transformers via Search Dynamics Bootstrapping 》的翻译。

超越A*:通过搜索动力学引导与Transformer进行更好的规划

摘要

虽然Transformers在各种应用程序设置中取得了巨大的进步,但在解决复杂的决策任务方面,这种架构仍然落后于传统的符号规划者。在这项工作中,我们展示了如何训练Transformer来解决复杂的规划任务,并展示了Searchformer,这是一种Transformer模型,它可以在93.7%的时间内最优地解决以前看不见的Sokoban难题,同时比标准A星少用26.8%的搜索步骤。搜索Searchformer是一个编码器-解码器转换器模型,用于预测A星的搜索动态。然后通过专家迭代对该模型进行微调,以执行比A星更少的搜索步骤,搜索的同时仍然生成最佳计划。在我们的训练方法中,A星的搜索动态被表示为一个token序列,该序列概述了在符号规划期间在搜索树中添加和删除任务状态的时间。在我们对迷宫导航的消融研究中,我们发现Searchformer显著优于直接预测最优计划的基线,模型大小小5-10倍,训练数据集小10倍。我们还展示了Searchformer如何扩展到更大、更复杂的决策任务,如Sokoban,提高了已解决任务的百分比,缩短了搜索动态。

1 引言

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值