前言
这是一个实践中普遍遇到的问题,这里对https://datascience.stackexchange.com/questions/37792/reinforcement-learning-decreasing-loss-without-increasing-reward上面的回答进行翻译以及个人见解的记录。
正文
监督学习和强化学习之间的区别在于,监督学习是提供指导性的反馈——损失——来解决问题,而强化学习是提供评估性反馈——奖赏——解决问题。然后我们探究损失曲线与强化学习之间的关系。
损失曲线逐渐下降,对于神经网络来说意味着参数的收敛,函数近似趋于稳定,更低的损失意味着对当前策略值的更准确的预测。从技术上讲,Q-learning off-policy的估计更复杂,但收敛性仍将受到当前策略中可获得的经验的限制。不幸的是,强化学习中的损失度量不能反映该策略有多好。所以这意味着我们的策略被设定在这样的一个模式,在这个模式里,值可以通过我们使用的神经网络估计。出于某种原因,它不是像通常那样在损失指标下降之前发现策略的改进,因为每个改善的值估计应该显示更好的可能的动作,而且一旦那些被一个新的策略采用,价值估计就会变得过时,然后损失就会再次增加。
探索可能是个问题,这种情况下的“局部最小值”可能不是神经网络的问题,但策略上的微小变化都比当前的策略更糟糕。当我们使用的是off-policy,那么提高探索率可能会帮助我们找到更好的状态,而代价是