[人工智能导论学习笔记] MCTS

文章介绍了MonteCarloTreeSearch(MCTS)算法,包括选择、扩展、模拟和回溯四个步骤,重点在于通过UCB1策略评估路径价值,适用于大分支问题,并可利用硬件并行化加速模拟过程。

1. Monte Carlo Tree Search – 蒙特卡洛搜索树

该算法也是搜索算法中的一种,与上篇讲过的Minimax相比,该算法更专注于某一利益最大的分支,而不是遍历全部。核心点:

  • 通过rollouts来评估,从一个状态出发到目的不断评估当前路径的价值
  • 有选择性的搜索,即是探索对整体状态最有价值的路径

2. 算法思想

可以分为四步,分别是

2.1 Selection(选择):递归调用UCB1算法选择一条当前到目标节点的路径

UCB1公式如下
在这里插入图片描述

  • 第一个均值为当前节点的价值U / 当前节点的遍历次数N
  • n代表总探索次数
  • nj代表当前j节点被探索的次数

2.2 Expansion(扩展):枚举其下所有可能的路径并添加到树中

2.3 Simulation(模拟):对新节点A做rollout

何为rollout ? 其实就是一个随机模拟的过程即是预演算法,从该新节点A开始随机选择路径(符合规定的)逼近目标,当达到目标后会根据经过的路径返回一个评估值(判断该路径的好坏程度)

2.4 Back

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值