强化学习中损失与奖赏的关系

强殖装甲凯普

于 2020-08-05 21:24:04 发布

阅读量2k

点赞数

分类专栏：杂文

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_38163755/article/details/107825241

版权

本文探讨了强化学习中损失与奖赏的关系，指出损失下降并不一定意味着策略改进。损失曲线反映了参数收敛，但无法衡量策略好坏。在强化学习中，应关注episode累加奖赏变化，当损失下降而奖赏不变时，可能是探索不足或奖赏函数设计问题。环境的复杂性和奖赏的稀疏性也会影响学习效果。模型表现不佳可能是参数调优不充分或探索不够导致的。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

前言
正文

前言

这是一个实践中普遍遇到的问题，这里对https://datascience.stackexchange.com/questions/37792/reinforcement-learning-decreasing-loss-without-increasing-reward上面的回答进行翻译以及个人见解的记录。

正文

监督学习和强化学习之间的区别在于，监督学习是提供指导性的反馈——损失——来解决问题，而强化学习是提供评估性反馈——奖赏——解决问题。然后我们探究损失曲线与强化学习之间的关系。

损失曲线逐渐下降，对于神经网络来说意味着参数的收敛，函数近似趋于稳定，更低的损失意味着对当前策略值的更准确的预测。从技术上讲，Q-learning off-policy的估计更复杂，但收敛性仍将受到当前策略中可获得的经验的限制。不幸的是，强化学习中的损失度量不能反映该策略有多好。所以这意味着我们的策略被设定在这样的一个模式，在这个模式里，值可以通过我们使用的神经网络估计。出于某种原因,它不是像通常那样在损失指标下降之前发现策略的改进，因为每个改善的值估计应该显示更好的可能的动作，而且一旦那些被一个新的策略采用,价值估计就会变得过时，然后损失就会再次增加。

探索可能是个问题，这种情况下的“局部最小值”可能不是神经网络的问题，但策略上的微小变化都比当前的策略更糟糕。当我们使用的是off-policy，那么提高探索率可能会帮助我们找到更好的状态，而代价是

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。