三、蒙特卡洛树搜索(Monte-Carlo Tree Search)
讲蒙特卡洛树搜索之前,我们先讲一下蒙特卡洛规划(Monte-Carlo Planning)
蒙特卡罗是一类随机方法的统称。这类方法的特点是,可以在随机采样上计算得到近似结果,随着采样的增多,得到的结果是正确结果的概率逐渐加大,但在(放弃随机采样,而采用类似全采样这样的确定性方法)获得真正的结果之前,无法知道目前得到的结果是不是真正的结果。
举例说明,一个有10000个整数的集合,要求其中位数,可以从中抽取m<10000个数,把它们的中位数近似地看作这个集合的中位数。随着m增大,近似结果是最终结果的概率也在增大,但除非把整个集合全部遍历一边,无法知道近似结果是不是真实结果。
单一状态蒙特卡洛规划:多臂赌博机(multi-armed bandits)
单一状态指一位玩家,假设现在有k个赌博机,即有k个摇臂,也就是k种行动,玩家每次以随机采样形式采取一种行动 a ,好比随机拉动第K个赌博机的臂膀,得到?(?,??) 的回报。 问题:下一次需要拉动那个赌博机的臂膀,才能获得最大回 报呢?
多臂赌博机问题是一种序列决策问题,这种问题需要在利用 (exploitation)和探索(exploration) 之间保持平衡。
- 利用(exploitation) :保证在过去决策中得到最佳回报