虚拟遗憾最小化算法和强化学习同样都可以在博弈问题中求解,两者都利用博弈终端收获的奖励值进行更新,那么两者有什么不同呢?
虚拟遗憾最小化(CFR)是一种在不完全信息博弈中寻找纳什均衡的算法。它主要出现在扩展式博弈的环境里,这是一个不完全信息博弈框架。
强化学习(RL)更倾向于使用马尔科夫决策过程(MDPs)框架,这两种框架比较相似,但信息大都是完全的(然而它有时被扩展到处理部分可观察马尔科夫决策过程(POMDPs))。
CFR与传统的RL算法的不同之处在于,它并不试图使预期收益最大化。而是希望把可利用度最小化。石头剪刀布是一个很好的例子。CFR会学会在各种选项之间随机挑选,因此一般会找到折中的策略。传统的RL算法会试图利用对手行为的弱点,但同时也会让自己有可能被利用或者被欺骗。
在奖励值的分配上,CFR是在整个博弈(一幕)结束后得到对应的效用,而且通过历史状态计算对应信息集的价值,而RL倾向的MDP并没有保留历史状态,奖励也常常是即时而不是长远的。
内容提要:CFR在不完全信息博弈中起作用,将可利用度降到最低,而不是将奖励最大化。
若有问题,感谢指出