A Distribution Perspective on Reinforcement Learning(C51) 概率分布下的贝尔曼方程

最新推荐文章于 2024-06-25 10:11:35 发布

秋曾万

最新推荐文章于 2024-06-25 10:11:35 发布

阅读量3.5k

点赞数

CC 4.0 BY-SA版权

分类专栏： deep reinforce learning python 文章标签： rl

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_41679411/article/details/84262366

我们之前章节介绍的值函数强化学习算法都是基于值函数是确定固定值的，在这种情况下，依据Bellman方程进行更新最终达到最优解，但事实上，这种建模方式是不够合理的，单纯利用期望进行迭代损失了Q作为分布的信息，于是DeepMind从值函数的分布出发建立了新的模型，并最终得到一个表现相当优异的算法:C51

原本的Bellman Equation 更新为
$\gamma E Q(x',A')$

状态值函数 $Q (x, a)$ 是一个单点值函数，表示x状态下执行a动作的累计回报（期望）
去掉期望后，得到的就是一个关于随机变量的函数关系：
$\gamma Z(X',A')$
这里的随机变量 $Z (x, a)$ 是在x状态下执行a动作之后的回报形成的随机变量。注意它是具有概率分布的。
换而言之，状态值函数的分布满足（1）式。
值分布有一些缺点，但是DeepMind认为它能使算法更stable。接下来我们慢慢介绍值分布Bellman方程及其优缺点。

在这里我们需要重新回顾Bellman方程：
$Qπ(x,a)=ER(x,a)+γEp,πQπQ^{\pi}(x,a) = E R(x,a) + \gamma E_{p,\pi} Q^{\pi}$
$Q^*(x,a) = ER(x,a) + \gamma E_p max_{a'\in A} Q^*(x',a')$

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。