关于Alphazero中Dirichlet noise添加位置的见解

探讨AlphaZero中Dirichlet Noise的应用,分析其在根节点先验概率的作用,及如何增强AI探索策略,确保走子多样性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近为了做大作业选择了复现alphazero做一个五子棋的AI,论文阅读和复现基本上没有什么问题了,但是关于Dirichlet noise这个问题,由于论文里说得也是比较模糊,然后网上各位大佬实现起来的方式也是不一致,烦了我挺久的。

首先放出Dirichlet noise的原文:

Additional exploration is achieved by adding Dirichlet noise to the prior probabilities in the root node s0, specifically P(s, a) = (1 − ε)pa + εηa, where η ∼ Dir(0.03) and ε = 0.25; this noise ensures that all moves may be tried, but the search may still overrule bad moves.

这里提到,一个探索的方式是通过添加Dirichlet noise到根节点(root)先验概率,来让AI尽可能尝试更多的move,但是在尝试中也会忽略掉那些明显不好的move。

比较容易理解的是,除了根节点外,后面子节点的expend是不添加Dirichlet noise,起作用的只在第一个根节点的选点上。

但是对于根节点这个本身,似乎就有一点歧义。

有些人会认为,这个根节点只指棋盘开局那个根节点,因为MCT是保留的,后面的节点存着的先验概率P基本上都是通过父节点expend得到的。然而在expend的时候不应该添加Dirichlet noise。

但是我的理解是,既然原文提到,是要让AI尽可能走多的走法,那只在根节点加的意义其实很有限。所以应该是,每一步的搜索都对应一个根节点,也就是说,每一步的搜索的第一步走子,都添加Dirichlet noise。这样才好保证走子的多样性。

因此我个人感觉这个的算法其实应该是:一开始棋盘开局expend,此时给开局加Dirichlet noise。随后的搜索中,子节点expend,不添加noise; 在第一步搜索完成后,走子,舍弃其他节支,只保留该子节点的MCT,而在该节点的MCT上,子节点已经存在先验概率,是用于上次MCTS的,那么在下一步搜索开始之前,给这个节点的先验概率加上Dirichlet noise。这样下一次MCTS根节点走子基于的就是有Dirichlet noise添加过的先验概率。

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值