【百纳BetaGo】基于蒙特卡洛搜索树的二人明牌斗地主博弈(二）

最新推荐文章于 2025-07-19 12:29:22 发布

原创

最新推荐文章于 2025-07-19 12:29:22 发布 · 3.9k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#博弈论 #计算机博弈 #蒙特卡洛搜索树 #人工智能

前文链接：点击打开链接

前文已经提到MCTS算法取得了较为明显的成果，究其原因是算法会根据模拟出的获胜场次来选择当前动作中后续胜率最高的动作。然而mcts算法的局限性也正是这个原因引起的，因为mcts在模拟胜场的过程中并没有关于牌力的概念，就会导致只要符合出牌规则的出牌方式它都会选择去尝试，这样就会出现一些小牌能管却不管，起手出炸弹或者管牌的时候拆炸弹等等不合理的行为。也正是由于这个原因，纯粹基于mcts思想的算法虽然能够在最开始就达到较强的AI水平，但是后续的提升空间却有限（mcts算法的提升方法很粗暴：直接增加其模拟次数就可以达到优化的效果）。

如果将斗地主AI的最终目标比喻为一场格斗比赛，那么纯基于mcts的算法就像一个力大膀粗却没有脑子的壮汉，那么，如何在mcts的基础上尽可能的保存mcts算法优越性的同时改善其局限性呢？我们先必须搞清楚局限性出现的原因（我们再以壮汉举例）：

一是由于内存限制，我们不可能复刻AlphaGo的做法对每一步都进行千万级模拟，然而值得高兴的是由于斗地主游戏和扑克游戏的方式规则差异性，我们可以在保证进行足够模拟的基础上尽可能的降低对机器的压力，方法很简单:原始的mcts算法是对每一步模拟规定具体的模拟次数，而我们发现在地主第一手出牌的时候由于选择的多样性，（在假定总模拟次数为1000的基础上）基本上很多分支的模拟次数都不会超过10（结果并不具备模拟代表性

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。