16、搜索与规划算法：启发式搜索、标记启发式搜索与开环规划

最新推荐文章于 2025-09-19 14:26:39 发布

最新推荐文章于 2025-09-19 14:26:39 发布

阅读量26

点赞数

CC 4.0 BY-SA版权

分类专栏：决策算法：智能选择的艺术文章标签：启发式搜索标记启发式搜索开环规划

本文链接：https://blog.youkuaiyun.com/read5/article/details/152386315

决策算法：智能选择的艺术专栏收录该内容

50 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

搜索与规划算法：启发式搜索、标记启发式搜索与开环规划

1. 蒙特卡罗树搜索变体

在处理大型动作和状态空间时，基本的蒙特卡罗树搜索算法有一些变体。其中，渐进扩展（progressive widening）是一种有效的方法。从状态 $s$ 考虑的动作数量被限制为 $\theta_1N(s)^{\theta_2}$，这里的 $\theta_1$ 和 $\theta_2$ 是超参数。类似地，我们还可以使用双重渐进扩展（double progressive widening）来限制从状态 $s$ 采取动作 $a$ 后得到的状态数量。如果从状态 $s$ 执行动作 $a$ 后模拟的状态数量低于 $\theta_3N(s, a)^{\theta_4}$，则采样一个新状态；否则，以与访问次数成比例的概率从之前采样的状态中选择一个。这种策略可用于处理大型以及连续的动作和状态空间。

2. 启发式搜索

启发式搜索（Heuristic Search）使用从当前状态 $s$ 开始，基于价值函数 $U$ 的贪婪策略进行 $m$ 次模拟。价值函数 $U$ 初始化为其上限，这个上限被称为启发式。在模拟过程中，我们通过前瞻（lookahead）更新对 $U$ 的估计。模拟结束后，我们根据 $U$ 从 $s$ 选择贪婪动作。

启发式搜索的代码实现如下：

struct HeuristicSearch
    𝒫 # problem
    Uhi # upper bound on value function
    d # depth
    m # number of simulations
end

func

会员秒杀 ¥9.9 重磅福利

超级会员免费看