最近为了做大作业选择了复现alphazero做一个五子棋的AI,论文阅读和复现基本上没有什么问题了,但是关于Dirichlet noise这个问题,由于论文里说得也是比较模糊,然后网上各位大佬实现起来的方式也是不一致,烦了我挺久的。
首先放出Dirichlet noise的原文:
Additional exploration is achieved by adding Dirichlet noise to the prior probabilities in the root node s0, specifically P(s, a) = (1 − ε)pa + εηa, where η ∼ Dir(0.03) and ε = 0.25; this noise ensures that all moves may be tried, but the search may still overrule bad moves.
这里提到,一个探索的方式是通过添加Dirichlet noise到根节点(root)先验概率,来让AI尽可能尝试更多的move,但是在尝试中也会忽略掉那些明显不好的move。
比较容易理解的是,除了根节点外,后面子节点的expend是不添加Dirichlet noise,起作用的只在第一个根节点的选点上。
但是对于根节点这个本身,似乎就有一点歧义。
有些人会认为,这个根节点只指棋盘开局那个根节点,因为MCT是保留的,后面的节点存着的先验概率P基本上都是通过父节点expend得到的。然而在expend的时候不应该添加Dirichlet noise。
但是我的理解是,既然原文提到,是要让AI尽可能走多的走法,那只在根节点加的意义其实很有限。所以应该是,每一步的搜索都对应一个根节点,也就是说,每一步的搜索的第一步走子,都添加Dirichlet noise。这样才好保证走子的多样性。
因此我个人感觉这个的算法其实应该是:一开始棋盘开局expend,此时给开局加Dirichlet noise。随后的搜索中,子节点expend,不添加noise; 在第一步搜索完成后,走子,舍弃其他节支,只保留该子节点的MCT,而在该节点的MCT上,子节点已经存在先验概率,是用于上次MCTS的,那么在下一步搜索开始之前,给这个节点的先验概率加上Dirichlet noise。这样下一次MCTS根节点走子基于的就是有Dirichlet noise添加过的先验概率。