强化学习:从原理到应用的深度剖析
1. 强化学习基础与策略优化
在强化学习(RL)中,目标是找到一种策略,使从采样状态、动作和奖励中获得的预期回报最大化。不过,这种对回报最大化的追求可能会忽视其带来的后果。研究表明,对策略更新进行限制或约束能够使学习过程更稳定,得到更完善的策略。
传统方法中,如第6章所提到的,通过限制更新幅度来避免策略发生剧烈变化。但这样可能会导致策略变得脆弱且过于稀疏,即除了最优轨迹外,大多数动作的价值为零。为了解决这个问题,引入了基于熵的算法,该算法对马尔可夫决策过程(MDP)回报的原始定义进行修改,对回报进行重新缩放或正则化。
此外,有人提出其他熵的定义可能会有更好的效果,因为香农熵的稀疏性不足。虽然可以通过调整温度参数来生成适合特定问题的策略,但很有可能其他熵度量方法在特定问题上表现更优。从理论上来说,甚至可以使用任意函数,不过该函数需要遵循一些理论规则,如严格为正、可微分、凹函数且在零到一的范围之外为零等。
在实际生产中,为价值函数添加探索奖励是有益的,这样可以使智能体对变化具有更强的鲁棒性,但要注意避免对环境过度拟合。
2. 策略梯度与软Q学习的等价性
简单来说,Q学习和策略梯度方法都试图强化能带来更好奖励的行为。Q学习增加动作的价值,而策略梯度增加选择动作的概率。当加入基于熵的策略梯度时,动作的概率会与动作价值的某个函数成正比,即策略与Q值的某个函数成正比。因此,策略梯度方法和Q学习解决的是同一个问题。
从实证角度来看,对Q学习和策略梯度方法的比较表明,它们的性能相似。许多差异可以通过考虑样本效率或并行性等外部改进来解释。甚至有研究将Q学习和基于策略梯度的算法进行归
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



