单玩家蒙特卡罗树搜索与亚马逊游戏的蒙特卡罗算法应用
单玩家蒙特卡罗树搜索(SP - MCTS)参数调优
SP - MCTS的参数调优是一个关键环节。为了探究在开发(exploitation)和探索(exploration)之间哪种平衡能带来最佳结果,对公式1中的常数对(C; D)采用了三种不同设置。同时,在250个位置的测试集上,使用三种不同的时间控制进行测试,时间控制通过内存中允许的最大节点数来表示,分别为10⁵、10⁶和5×10⁶个节点。
- 短时间控制 :内存中最多允许10⁵个节点,每个位置大约对应20秒。此时,开发设置(参数对为(0.1; 32))取得了最佳结果,平均得分2552分。该设置下搜索能构建出平均最深叶节点在第63层的树,这意味着所选走法的很大一部分都在SP - MCTS树内。而其他两种设置无法生成较深的树。
- 中等时间控制 :允许10⁶个节点。平衡设置(参数对为(0.5; 10,000))表现最佳,得分2858分。与短时间控制相比,平衡设置的平均得分增加最多,达470分,且能构建比短时间控制更深的树(平均深度从19层提升到37层)。值得注意的是,即使中等时间控制的探索设置有10倍于短时间控制开发设置的时间,其得分也未显著高于开发设置。
- 长时间控制 :允许5×10⁶个节点。平衡设置再次取得最高得分3008分,平均最深节点在第59层。不过,开发设置的得分仅比平衡设置少200分,比探索设置少100分。
从这些结果可以得出两个结论:一是构建深搜索树很重要;二是当搜索时间有限时,开发局部最
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



