23、对抗搜索与博弈:从确定性到部分可观察游戏的探索

对抗搜索与博弈:从确定性到部分可观察游戏的探索

1. 搜索算法对比

在博弈场景中,不同的搜索算法有着各自的特点和适用场景。以一个分支因子为 32,平均游戏步数为 100 步的游戏为例,如果在做出一步行动前有足够的计算能力来考虑 10 亿个游戏状态,那么不同算法的搜索能力如下:
| 算法 | 搜索深度或模拟次数 |
| ---- | ---- |
| 极小极大算法(Minimax) | 6 层深度 |
| 带完美移动排序的 α - β 剪枝算法(Alpha - Beta) | 12 层深度 |
| 蒙特卡罗搜索(Monte Carlo Search) | 1000 万次模拟 |

哪种方法更好取决于启发式函数的准确性以及选择和模拟策略。传统观点认为,对于像围棋这种分支因子非常高(α - β 剪枝算法无法搜索足够深)或者难以定义良好评估函数的游戏,蒙特卡罗搜索比 α - β 剪枝算法更具优势。

α - β 剪枝算法会选择能使评估函数得分最高的路径,但前提是对手会试图最小化该得分。因此,如果评估函数不准确,α - β 剪枝算法的决策也会不准确。而蒙特卡罗搜索依赖于大量模拟的综合结果,对单个错误的敏感性较低。还可以将蒙特卡罗树搜索(MCTS)和评估函数结合,即进行一定步数的模拟后截断模拟并应用评估函数。

此外,也可以结合 α - β 剪枝算法和蒙特卡罗搜索的特点。例如,在可能持续很多步的游戏中,可以采用早期模拟终止策略,即停止耗时过长的模拟,用启发式评估函数进行评估或直接判定为平局。

蒙特卡罗搜索也有其劣势。当某一步棋可能改变游戏走向时,由于其随机性,可能会忽略这一步。在某些游戏状态中,根据人类知识和

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值