KataGo中的蒙特卡洛图搜索原理与技术解析-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01015/article/details/148549979

KataGo中的蒙特卡洛图搜索原理与技术解析

KataGo GTP engine and self-play learning in Go 项目地址: https://gitcode.com/gh_mirrors/ka/KataGo

引言：从树搜索到图搜索的挑战

在传统游戏树搜索中，我们经常会遇到"局面转置"(transposition)现象——不同的走子顺序可能到达相同的棋盘状态。例如在国际象棋中，走子顺序"1. d4 d5 2. Nf3"和"1. Nf3 d5 2. d4"会到达完全相同的局面。标准的蒙特卡洛树搜索(MCTS)算法将这些视为不同的节点，导致计算资源浪费。

KataGo项目采用了一种更高效的解决方案——蒙特卡洛图搜索(MCGS)，将搜索空间建模为有向无环图(DAG)而非树结构。这种方法可以共享转置局面的计算结果，显著提升搜索效率。然而，直接将MCTS扩展到图结构并非易事，需要深入理解算法原理才能实现正确的扩展。

传统MCTS算法回顾

在深入图搜索之前，让我们先回顾标准的MCTS算法工作原理。MCTS通过以下四个步骤进行迭代：

选择(Selection)：从根节点开始，根据探索公式(如PUCT)选择子节点，直到到达叶节点
扩展(Expansion)：为未探索的状态创建新节点
模拟(Simulation)：评估新状态的效用值(通常使用神经网络)
回溯(Backpropagation)：将评估结果沿路径回溯更新各节点统计量

每个节点维护两个关键统计量：

N：访问次数
Q：平均效用值

PUCT探索公式如下：

Action = argmax_a [PlayerToMove * Q(a) + cPUCT * P(a) * sqrt(∑N(b))/(1+N(a))]

图搜索的直接扩展及其问题

直接将MCTS扩展到图结构的直观做法是：当遇到转置局面时，共享已有节点而非创建新节点。然而，这种简单扩展会导致严重问题：

效用更新不一致：当转置路径发现新战术时，更新不会传播到所有父节点
探索偏差：高度访问的子节点可能被"过度探索"，导致父节点错误地偏向探索其他次优动作
收敛问题：算法可能无法保证收敛到最优解

通过具体示例可以清楚看到这些问题。考虑以下场景：

节点A主要通过节点C进行探索(初始Q≈0.39)
转置路径使节点C的Q值提升至0.51
但由于更新不传播，节点A仍保持低Q值
后续探索可能错误地偏向其他次优动作

理论基础：作为正则化策略优化的MCTS

Grill等人(2020)的研究为理解MCTS提供了新的理论视角——将MCTS视为一种正则化的策略优化过程。这一观点认为：

MCTS隐式地学习一个策略，该策略在探索和利用间取得平衡
搜索过程可看作是在先验策略(神经网络预测)基础上，通过探索得到改进策略
最终访问分布反映了经过搜索优化的策略

这一理论框架自然地引导我们走向图搜索的正确扩展方式，而不仅仅是临时修补方案。

正确的图搜索算法设计

基于上述理论，KataGo采用的蒙特卡洛图搜索算法需要满足以下关键性质：

一致性：相同局面的所有父节点应获得一致的效用评估
探索平衡：避免因转置访问导致的探索偏差
计算效率：保持图结构的优势，避免重复计算

实现这些性质的核心在于重新定义节点统计量的更新方式。不同于传统的基于运行统计的方法，我们应采用基于策略优化的视角：

将每次playout视为策略优化的一次迭代
节点统计量反映的是全局策略而非局部运行平均
更新规则确保所有转置路径贡献一致

算法实现要点

在具体实现上，KataGo的MCGS算法需要注意以下关键点：

全局节点管理：使用哈希表维护所有已探索状态
效用传播：确保转置路径的发现能正确影响所有相关节点
探索控制：调整PUCT公式，考虑节点的全局访问情况而非局部访问
并发控制：多线程搜索时的正确同步机制

伪代码示例：

def perform_playout(node):
    if is_terminal(node.state):
        U = evaluate_outcome(node.state)
    elif node.N == 0:
        U = neural_net_eval(node.state)
    else:
        action = select_action(node)  # 使用调整后的探索公式
        child_state = apply_action(node.state, action)
        child_node = get_shared_node(child_state)  # 获取或创建共享节点
        U = perform_playout(child_node)
    
    # 全局更新而非局部更新
    update_all_parents(node, U)
    return U