3、亚马逊棋游戏中MC/UCT混合算法的应用与优化

落叶知秋263

于 2025-06-17 11:41:54 发布

阅读量118

点赞数

CC 4.0 BY-SA版权

分类专栏：计算机游戏与智能算法的碰撞文章标签：亚马逊棋 MC/UCT混合算法游戏AI优化

本文链接：https://blog.youkuaiyun.com/ansible6ops/article/details/149363307

计算机游戏与智能算法的碰撞专栏收录该内容

31 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

亚马逊棋游戏中MC/UCT混合算法的应用与优化

1. UCT算法概述

UCT（Upper Confidence Bounds Extended for Trees）算法是解决某些问题的流行方案。其核心思想是维护一个搜索树（UCT树），树的每个节点记录特定位置的获胜记录。从UCT树的根节点开始，通过选择具有最高扩展值的节点向下搜索，找到一条通向叶节点的路径。节点的扩展值等于所有经过该节点的模拟的获胜百分比加上一个偏差值，偏差值的计算公式为：$\sqrt{\frac{k \cdot \log(parent_count)}{node_count}}$，其中$parent_count$是经过该节点父节点的模拟次数，$node_count$是经过该节点的模拟次数，$k$是根据具体应用调整的常数。较小的$k$值意味着表现良好的走法更有可能继续扩展（利用），而较大的$k$值意味着在每一层会尝试更多走法（探索）。

例如，在特定局面下，对应走法G6 - C6(G6)的节点会有对应黑方后续走法的子节点。如果对应走法H3 - I4(I6)的子节点在大多数模拟中获胜，那么这条路径会被频繁选择，导致顶层节点G6 - C6(G6)开始输掉更多游戏，显示该走法不可取。同时，由于偏差值的存在，像J5 - I5(J5)这样的走法最终会被频繁探索，以获得更高的获胜百分比。