虚拟遗憾最小化算法和强化学习同样都可以在博弈问题中求解,两者都利用博弈终端收获的奖励值进行更新,那么两者有什么不同呢?
虚拟遗憾最小化(CFR)是一种在不完全信息博弈中寻找纳什均衡的算法。它主要出现在扩展式博弈的环境里,这是一个不完全信息博弈框架。
强化学习(RL)更倾向于使用马尔科夫决策过程(MDPs)框架,这两种框架比较相似,但信息大都是完全的(然而它有时被扩展到处理部分可观察马尔科夫决策过程(POMDPs))。
CFR与传统的RL算法的不同之处在于,它并不试图使预期收益最大化。而是希望把可利用度最小化。石头剪刀布是一个很好的例子。CFR会学会在各种选项之间随机挑选,因此一般会找到折中的策略。传统的RL算法会试图利用对手行为的弱点,但同时也会让自己有可能被利用或者被欺骗。
在奖励值的分配上,CFR是在整个博弈(一幕)结束后得到对应的效用,而且通过历史状态计算对应信息集的价值,而RL倾向的MDP并没有保留历史状态,奖励也常常是即时而不是长远的。
内容提要:CFR在不完全信息博弈中起作用,将可利用度降到最低,而不是将奖励最大化。
若有问题,感谢指出
CFR与RL:不完全信息博弈中的均衡寻找差异解析
本文探讨了虚拟遗憾最小化算法(CFR)与强化学习在解决博弈问题上的区别,CFR关注于降低可利用度而非最大奖励,如在石头剪刀布中寻求平衡策略,而RL通常追求最优策略。CFR依赖整个博弈过程的效用,历史状态价值计算,与MDP即时奖励不同。
1102

被折叠的 条评论
为什么被折叠?



