DDPG训练问题

最新推荐文章于 2025-04-03 15:58:41 发布

GUFighting

最新推荐文章于 2025-04-03 15:58:41 发布

阅读量1.8k

点赞数 1

本文链接：https://blog.youkuaiyun.com/GUFighting/article/details/109412831

版权

博主使用DDPG算法训练时，critic网络损失函数为(((r+gammaQ_target)-Q)^2)，actor网络损失函数为Q，给出了二者参数更新公式。训练中出现Q值递减、损失函数变化与奖励值不对应的情况，寻求解决办法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用DDPG算法时，我的critic网络损失函数是(((r+gammaQ_target)-Q)^2)，actor网络的损失函数是Q，critic网络的参数更新公式是Wq=Wq-αdQ/dWq，critic网络的参数更新公式是uWu=Wu-β*(dQ/da*du/dWu)，根据以上参数更新公式进行训练时，Q值是递减的，损失函数的变化也与奖励值有些不对应，请问大家出现这种情况的解决办法。