intro
以往在线强化学习通常利用Double-clip Q 防止Q值高估问题,本文则是指出这样的操作以及Bellman算子实现中通过神经网络拟合 max \max max
的方式,导致replaybuffer中的某些有潜在高质量的样本价值被低估。因此,本文重新构造了一种混合的bellman算子实现探索与利用的平衡。
method
文章通过对SAC以及TD3剔除Clip-Q,发现仍然存在价值低估问题。指出这是由bellman算子导致。传统Q迭代过程中, Q ( s , a ) ← r ( s , a ) + γ E s ′ [ max a ′ Q ( s ′ , a ′ ) ] . Q(s,a)\leftarrow r(s,a)+\gamma\mathbb{E}_{s^{\prime}}[\max_{a^{\prime}}Q(s^{\prime},a^{\prime})]. Q(s,a)←r(s,a)+γEs′[maxa′Q(s′,a′)].中max难以计算,因此在计算target-Q时采用的采用求期望 E s , a ∼ π [ Q ( s , a ) ] E_{s,a \sim \pi} [Q(s,a)] Es,a∼π[Q(s,a)]。正是这样的操作使得有些样本的价值估计低估的可能增大。随后,文章通过计算replaybuffer中最优历史策略的价值与在线策略期望价值的残差,证明这种低估随着训练的进行一直存在。
Δ ( μ k , π k ) = E s [ max a ∼ μ k Q μ k ( s , a ) − E a ∼ π k [ Q π k ( s , a ) ] ] \Delta(\mu_k,\pi_k)=\mathbb{E}_s\left[\max_{a\sim\mu_k}Q^{\mu_k}(s,a)-\mathbb{E}_{a\sim\pi_k}\left[Q^{\pi_k}(s,a)\right]\right] Δ(μk,π
ICML 2024:构造混合Bellman算子平衡探索与利用

最低0.47元/天 解锁文章
76

被折叠的 条评论
为什么被折叠?



