使用DDPG算法时,我的critic网络损失函数是(((r+gammaQ_target)-Q)^2),actor网络的损失函数是Q,critic网络的参数更新公式是Wq=Wq-αdQ/dWq,critic网络的参数更新公式是uWu=Wu-β*(dQ/da*du/dWu),根据以上参数更新公式进行训练时,Q值是递减的,损失函数的变化也与奖励值有些不对应,请问大家出现这种情况的解决办法。
DDPG训练问题
最新推荐文章于 2025-04-03 15:58:41 发布
使用DDPG算法时,我的critic网络损失函数是(((r+gammaQ_target)-Q)^2),actor网络的损失函数是Q,critic网络的参数更新公式是Wq=Wq-αdQ/dWq,critic网络的参数更新公式是uWu=Wu-β*(dQ/da*du/dWu),根据以上参数更新公式进行训练时,Q值是递减的,损失函数的变化也与奖励值有些不对应,请问大家出现这种情况的解决办法。