人工智能-搜索-蒙特卡洛树搜索

三、蒙特卡洛树搜索(Monte-Carlo Tree Search)

讲蒙特卡洛树搜索之前,我们先讲一下蒙特卡洛规划(Monte-Carlo Planning)

蒙特卡罗是一类随机方法的统称。这类方法的特点是,可以在随机采样上计算得到近似结果,随着采样的增多,得到的结果是正确结果的概率逐渐加大,但在(放弃随机采样,而采用类似全采样这样的确定性方法)获得真正的结果之前,无法知道目前得到的结果是不是真正的结果。

举例说明,一个有10000个整数的集合,要求其中位数,可以从中抽取m<10000个数,把它们的中位数近似地看作这个集合的中位数。随着m增大,近似结果是最终结果的概率也在增大,但除非把整个集合全部遍历一边,无法知道近似结果是不是真实结果。

单一状态蒙特卡洛规划:多臂赌博机(multi-armed bandits)

单一状态指一位玩家,假设现在有k个赌博机,即有k个摇臂,也就是k种行动,玩家每次以随机采样形式采取一种行动 ,好比随机拉动第K个赌博机的臂膀,得到?(?,??) 的回报。 问题:下一次需要拉动那个赌博机的臂膀,才能获得最大回 报呢? 

多臂赌博机问题是一种序列决策问题,这种问题需要在利用 (exploitation)和探索(exploration) 之间保持平衡。 
 

  • 利用(exploitation) :保证在过去决策中得到最佳回报
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值