深入探索单人井字棋与Risk游戏的强化学习策略
单人井字棋模型评估与算法结合
为了精确评估模型质量并与原始NRPA算法进行对比,我们提供了更精确的得分统计数据,具体如下表所示:
| 模型 | 均值 | 最大值 | σ/√n |
| — | — | — | — |
| Uniform | 39.1 | 61 | 0.059 |
| NRPA(1) | 58.5 | 66 | 0.014 |
| NRPA(2) | 65.9 | 72 | 0.024 |
| NRPA(3) | 68.2 | 78 | 0.119 |
| BasicCNN R1 | 41.7 | 60 | 0.024 |
| Resnet R1 | 44.0 | 58 | 0.018 |
| Resnet R2 | 50.5 | 74 | 0.032 |
从表中可以看出,基于R1(不考虑先前移动)的两个神经网络模型相较于基线有一定改进,但表现不如NRPA(1)。而基于R2的神经网络在均值和最大值方面明显优于基线,且最大得分超过了NRPA(1)和NRPA(2),同时无需大量的滚动操作。
为了进一步提高解决方案的质量,我们将新训练的策略模型融入现有的搜索算法中,取代随机启发式方法。不同策略模型的结果总结如下表:
| 算法 | 均值 | 最大值 | 平均游戏时间 |
| — | — | — | — |
| NRPA(3) | 68.2 | 78 | 16:40 |
| Nested(1) + Resnet R2 | 68.8 | 79 | 6:26 |
| Resnet R2 | 50
超级会员免费看
订阅专栏 解锁全文
2145

被折叠的 条评论
为什么被折叠?



