4、深入探索单人井字棋与Risk游戏的强化学习策略

深入探索单人井字棋与Risk游戏的强化学习策略

单人井字棋模型评估与算法结合

为了精确评估模型质量并与原始NRPA算法进行对比,我们提供了更精确的得分统计数据,具体如下表所示:
| 模型 | 均值 | 最大值 | σ/√n |
| — | — | — | — |
| Uniform | 39.1 | 61 | 0.059 |
| NRPA(1) | 58.5 | 66 | 0.014 |
| NRPA(2) | 65.9 | 72 | 0.024 |
| NRPA(3) | 68.2 | 78 | 0.119 |
| BasicCNN R1 | 41.7 | 60 | 0.024 |
| Resnet R1 | 44.0 | 58 | 0.018 |
| Resnet R2 | 50.5 | 74 | 0.032 |

从表中可以看出,基于R1(不考虑先前移动)的两个神经网络模型相较于基线有一定改进,但表现不如NRPA(1)。而基于R2的神经网络在均值和最大值方面明显优于基线,且最大得分超过了NRPA(1)和NRPA(2),同时无需大量的滚动操作。

为了进一步提高解决方案的质量,我们将新训练的策略模型融入现有的搜索算法中,取代随机启发式方法。不同策略模型的结果总结如下表:
| 算法 | 均值 | 最大值 | 平均游戏时间 |
| — | — | — | — |
| NRPA(3) | 68.2 | 78 | 16:40 |
| Nested(1) + Resnet R2 | 68.8 | 79 | 6:26 |
| Resnet R2 | 50

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值