4、深入探索单人井字棋与Risk游戏的强化学习策略

r2s3t4

于 2025-08-22 16:00:24 发布

阅读量28

点赞数

CC 4.0 BY-SA版权

分类专栏： AI与游戏的未来对话文章标签：强化学习单人井字棋 Risk游戏

本文链接：https://blog.youkuaiyun.com/r2s3t4/article/details/151673670

AI与游戏的未来对话专栏收录该内容

27 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深入探索单人井字棋与Risk游戏的强化学习策略

单人井字棋模型评估与算法结合

为了精确评估模型质量并与原始NRPA算法进行对比，我们提供了更精确的得分统计数据，具体如下表所示：
| 模型 | 均值 | 最大值 | σ/√n |
| — | — | — | — |
| Uniform | 39.1 | 61 | 0.059 |
| NRPA(1) | 58.5 | 66 | 0.014 |
| NRPA(2) | 65.9 | 72 | 0.024 |
| NRPA(3) | 68.2 | 78 | 0.119 |
| BasicCNN R1 | 41.7 | 60 | 0.024 |
| Resnet R1 | 44.0 | 58 | 0.018 |
| Resnet R2 | 50.5 | 74 | 0.032 |

从表中可以看出，基于R1（不考虑先前移动）的两个神经网络模型相较于基线有一定改进，但表现不如NRPA(1)。而基于R2的神经网络在均值和最大值方面明显优于基线，且最大得分超过了NRPA(1)和NRPA(2)，同时无需大量的滚动操作。

为了进一步提高解决方案的质量，我们将新训练的策略模型融入现有的搜索算法中，取代随机启发式方法。不同策略模型的结果总结如下表：
| 算法 | 均值 | 最大值 | 平均游戏时间 |
| — | — | — | — |
| NRPA(3) | 68.2 | 78 | 16:40 |
| Nested(1) + Resnet R2 | 68.8 | 79 | 6:26 |
| Resnet R2 | 50