强化学习：Actor-Critic如何指导蒙特卡洛搜索

最新推荐文章于 2025-02-15 13:56:40 发布

原创

最新推荐文章于 2025-02-15 13:56:40 发布 · 626 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#蒙特卡洛搜索

本文探讨了强化学习在五子棋AI开发中的应用，特别是如何使用预训练神经网络指导蒙特卡洛搜索，包括理解和调整UCB公式的策略。通过分析AlphaZero-Gomuku项目源码，解决了在AI设计过程中遇到的难题。

最近自己写这个五子棋的强化学习AI遇到了很多困难，而且在如何使用训练结果来指导蒙特卡洛搜索方面遇到了障碍。又重新回看了这个AlphaZero-Gomuku项目的源码，从中学到了很多东西，以及许多遇到的问题的具体解决方案。啊啊啊，好后悔，应该早点回去看的。（当然，源码还是有一些地方没有看明白）

在之前写过的博文面向初学者的蒙特卡洛树搜索MCTS详解及其实现中，我们已经讲了如何基于UCB进行探索和利用，以及蒙特卡洛搜索的四个基本操作——选择，扩展，模拟和反向传播。下面一个问题就是如何利用我们预先训练的神经网络来指导蒙特卡洛的搜索了。

我们再次回顾UCB公式：

在上述公式中，vi代表的是蒙特卡洛搜索的平均价值。C是一个常数，N是其父节点的访问次数，ni是当前节点的访问次数。显然vi，对应的就是critic输出的value的平均值，而C我们可以把其看作当前情况下输出的action probability，也就是一个prior p。另外，在AlphaGoZero的论文中，对N没有取log。因此最后公式变为：

UCB = vi + C*prior_p*sqrt(N/ni+1)。我们依然保留了一个C作为常数。

理解一下这个公式的含义，当我们还未进行任何尝试的时候，UCB=prior_p，优先探索概率高的地方，随着探索的进行，我们的探索会越来越接近真实的情况。至于为什么公式要这么改，我也不知道~。

下面看一下源码中的实现：

get_value这个函数返回的是UCB值

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。