强化学习—— Twin delay deep deterministic policy gradient(TD3算法
1 算法原文流程

2 算法核心技巧
2.1 累计误差
Q θ ( s t , a t ) = r t + γ ⋅ E [ Q θ ( s t + 1 , a t + 1 ) ] − δ ( s t , a t ) Q_\theta(s_t,a_t)=r_t + \gamma \cdot E[Q_\theta(s_ {t+1},a_{t+1})]-\delta(s_t,a_t) Qθ(st,at)=rt+γ⋅E[Qθ(st+1,at+1)]−δ(st,at)
展开后得到:
Q θ ( s t , a t ) = E s i ∼ p π , a i ∼ π [ ∑ i = 1 T γ i ⋅ ( r i − δ i ) ] Q_\theta(s_t,a_t)=E_{s_i \sim p_\pi ,a_i \sim \pi}[\sum_{i=1}^T \gamma_i \cdot(r_i - \delta_i)] Qθ(st,at)=Esi∼pπ,ai∼π[i=1∑Tγi⋅(ri−δi)]
所以动作价值的估计函数学习的目标是累计回报与TD error之差的期望。
2.2 clipped Double Q-learning
y 1 = r + γ ⋅ m i n i = 1 , 2 Q θ i ′ ( s ′ , π ϕ 1 ( s ′ ) ) y_1 = r+\gamma\cdot min_{i=1,2}Q_{\theta _ i^{'}}(s^{'},\pi_{\phi _1}(s^{'})) y1=r+γ⋅min

本文详细介绍了强化学习中的TD3算法,包括其基本流程、核心技巧如累计误差、双Q学习、目标网络、延迟策略更新和策略平滑正则化。通过这些技术,TD3旨在解决Q学习中的高估问题,提高学习稳定性。算法步骤中强调了探索性动作的选择、经验回放缓冲区的使用以及网络参数的更新策略。
最低0.47元/天 解锁文章
9547

被折叠的 条评论
为什么被折叠?



