[人工智能导论学习笔记] MCTS

最新推荐文章于 2025-03-13 10:18:08 发布

原创

最新推荐文章于 2025-03-13 10:18:08 发布 · 486 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#学习 #笔记

文章介绍了MonteCarloTreeSearch(MCTS)算法，包括选择、扩展、模拟和回溯四个步骤，重点在于通过UCB1策略评估路径价值，适用于大分支问题，并可利用硬件并行化加速模拟过程。

1. Monte Carlo Tree Search – 蒙特卡洛搜索树

该算法也是搜索算法中的一种，与上篇讲过的Minimax相比，该算法更专注于某一利益最大的分支，而不是遍历全部。核心点：

通过rollouts来评估，从一个状态出发到目的不断评估当前路径的价值
有选择性的搜索，即是探索对整体状态最有价值的路径

2. 算法思想

可以分为四步，分别是

2.1 Selection（选择）：递归调用UCB1算法选择一条当前到目标节点的路径

UCB1公式如下
在这里插入图片描述

第一个均值为当前节点的价值U / 当前节点的遍历次数N
n代表总探索次数
nj代表当前j节点被探索的次数

2.2 Expansion（扩展）：枚举其下所有可能的路径并添加到树中

2.3 Simulation（模拟）：对新节点A做rollout

何为rollout ? 其实就是一个随机模拟的过程即是预演算法，从该新节点A开始随机选择路径（符合规定的）逼近目标，当达到目标后会根据经过的路径返回一个评估值（判断该路径的好坏程度）

2.4 Back

最低0.47元/天解锁文章

评论 1

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。