虚拟遗憾最小化(CFR)与强化学习(RL) 的异同点

本文探讨了虚拟遗憾最小化算法(CFR)与强化学习在解决博弈问题上的区别,CFR关注于降低可利用度而非最大奖励,如在石头剪刀布中寻求平衡策略,而RL通常追求最优策略。CFR依赖整个博弈过程的效用,历史状态价值计算,与MDP即时奖励不同。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

虚拟遗憾最小化算法和强化学习同样都可以在博弈问题中求解,两者都利用博弈终端收获的奖励值进行更新,那么两者有什么不同呢?
虚拟遗憾最小化(CFR)是一种在不完全信息博弈中寻找纳什均衡的算法。它主要出现在扩展式博弈的环境里,这是一个不完全信息博弈框架。
强化学习(RL)更倾向于使用马尔科夫决策过程(MDPs)框架,这两种框架比较相似,但信息大都是完全的(然而它有时被扩展到处理部分可观察马尔科夫决策过程(POMDPs))。

CFR与传统的RL算法的不同之处在于,它并不试图使预期收益最大化。而是希望把可利用度最小化。石头剪刀布是一个很好的例子。CFR会学会在各种选项之间随机挑选,因此一般会找到折中的策略。传统的RL算法会试图利用对手行为的弱点,但同时也会让自己有可能被利用或者被欺骗。

在奖励值的分配上,CFR是在整个博弈(一幕)结束后得到对应的效用,而且通过历史状态计算对应信息集的价值,而RL倾向的MDP并没有保留历史状态,奖励也常常是即时而不是长远的。

内容提要:CFR在不完全信息博弈中起作用,将可利用度降到最低,而不是将奖励最大化。

若有问题,感谢指出

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值