Beyond A∗ : Better Planning with Transformers via Search Dynamics Bootstrapping

最新推荐文章于 2025-11-25 12:11:01 发布

UnknownBody

最新推荐文章于 2025-11-25 12:11:01 发布

阅读量994

点赞数 29

CC 4.0 BY-SA版权

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/136328184

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

Searchformer是一种Transformer模型，通过预测A星搜索动态，有效地解决复杂的规划任务，如Sokoban。它在93.7%的情况下找到最优解，比A星少用26.8%的搜索步骤。该模型通过学习A星搜索轨迹，展现出优于直接预测最优计划的性能，并能扩展到更复杂的决策任务。尽管存在计算成本和跟踪长度的挑战，但未来可能通过课程学习、改进的启发式或集成MCTS来优化。

本文是LLM系列文章，针对《Beyond A∗ : Better Planning with Transformers via Search Dynamics Bootstrapping 》的翻译。

摘要

虽然Transformers在各种应用程序设置中取得了巨大的进步，但在解决复杂的决策任务方面，这种架构仍然落后于传统的符号规划者。在这项工作中，我们展示了如何训练Transformer来解决复杂的规划任务，并展示了Searchformer，这是一种Transformer模型，它可以在93.7%的时间内最优地解决以前看不见的Sokoban难题，同时比标准A星少用26.8%的搜索步骤。搜索Searchformer是一个编码器-解码器转换器模型，用于预测A星的搜索动态。然后通过专家迭代对该模型进行微调，以执行比A星更少的搜索步骤，搜索的同时仍然生成最佳计划。在我们的训练方法中，A星的搜索动态被表示为一个token序列，该序列概述了在符号规划期间在搜索树中添加和删除任务状态的时间。在我们对迷宫导航的消融研究中，我们发现Searchformer显著优于直接预测最优计划的基线，模型大小小5-10倍，训练数据集小10倍。我们还展示了Searchformer如何扩展到更大、更复杂的决策任务，如Sokoban，提高了已解决任务的百分比，缩短了搜索动态。