一个AC类算法策略loss引出的思考

最新推荐文章于 2025-04-14 12:40:45 发布

iπ弟弟

最新推荐文章于 2025-04-14 12:40:45 发布

阅读量3.6k

点赞数 2

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43145941/article/details/115342794

版权

强化学习专栏收录该内容

19 篇文章 ¥19.90 ¥99.00

订阅专栏

本文探讨了在AC算法中，策略loss(loss_pi)的变化趋势及其背后的逻辑。作者指出在负奖励环境中，loss_pi增大并不意味着策略网络不收敛，而是策略在逐渐优化。随着Critic网络的更新，actor的目标是使Critic网络输出增大，即使得Q值更接近最优。当Critic网络接近当前策略的Q值时，loss_pi趋于平缓，表明策略正在改进。强调在强化学习中，不能简单地用监督学习的思路来理解loss的收敛行为。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

记录

在记录DDPG等AC算法的loss时，发现其loss如下图：
在这里插入图片描述

最开始的想法：策略pi的loss不是负的q值吗，如果loss_pi增大意味着q减小，pi不是朝着q增大的方向吗？

经过和别人的讨论以及自己的思考，得出如下结论：

我的环境所有奖励都是负奖励，这是这个问题思考的基础点。
由于都是负奖励，所以无论是什么策略下的Q值都是负数，最优策略下的Q值也是负数。
Critic网络在初始化后权重都是非常接近0的数，导致Critic网络的所有预测Q值都接近0，而loss_pi是batch_size个负Q的均值，因此此时loss_pi接近0，这解释了loss_pi的起点为什么是0。
明确一个观点：loss_pi增大并不是策略网络不收敛，因为AC算法的Actor大都采用的是使用策略梯度进行网络更新，其loss仅仅是负Q的平均࿰

了解本专栏

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

iπ弟弟 如果可以的话，请杯咖啡吧！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。