还记得我们的混合动作空间专栏吗?过去的三篇专栏里,我们介绍了混合动作空间的定义,常见的动作空间预处理方法,并将当前学术界解决混合动作空间的方法总结为以下三类:
-
基于状态-动作值函数Q的方法
-
基于状态值函数V的方法
-
基于动作空间学习和转换的方法
错过的看这里:
混合动作空间 | 创造人工智能的黑魔法(1)_面向连续-离散混合决策的游戏ai智能体强化学习方法_OpenDILab开源决策智能平台的博客-优快云博客
混合动作空间|揭秘创造人工智能的黑魔法(2)_OpenDILab开源决策智能平台的博客-优快云博客
混合动作空间|揭秘创造人工智能的黑魔法(3)_OpenDILab开源决策智能平台的博客-优快云博客
在混合动作空间(3)中,我们介绍了基于Q函数的算法。而从本篇专栏起,我们将为大家讲解基于V函数的混合动作空间算法,包括H-PPO、HiPPO、腾讯绝悟、OpenAI Five,AlphaStar等。
混合动作空间中的V函数和Q函数
定义
先来简单回顾一下强化学习里面Q函数、V函数这两个价值函数的定义。
-
V函数指状态价值函数
表示从状态出发,使用策略所带来的累计奖赏。
- Q函数指状态-动作价值函数
表示从状态出发,执行动作
且之后使用策略
所带来的累计奖赏;
由此可知,如果我们用随机性策略来表示在状态