强化学习—— Twin delay deep deterministic policy gradient(TD3算法)

本文详细介绍了强化学习中的TD3算法,包括其基本流程、核心技巧如累计误差、双Q学习、目标网络、延迟策略更新和策略平滑正则化。通过这些技术,TD3旨在解决Q学习中的高估问题,提高学习稳定性。算法步骤中强调了探索性动作的选择、经验回放缓冲区的使用以及网络参数的更新策略。

1 算法原文流程

在这里插入图片描述

2 算法核心技巧

2.1 累计误差

Q θ ( s t , a t ) = r t + γ ⋅ E [ Q θ ( s t + 1 , a t + 1 ) ] − δ ( s t , a t ) Q_\theta(s_t,a_t)=r_t + \gamma \cdot E[Q_\theta(s_ {t+1},a_{t+1})]-\delta(s_t,a_t) Qθ(st,at)=rt+γE[Qθ(st+1,at+1)]δ(st,at)
展开后得到:
Q θ ( s t , a t ) = E s i ∼ p π , a i ∼ π [ ∑ i = 1 T γ i ⋅ ( r i − δ i ) ] Q_\theta(s_t,a_t)=E_{s_i \sim p_\pi ,a_i \sim \pi}[\sum_{i=1}^T \gamma_i \cdot(r_i - \delta_i)] Qθ(st,at)=Esipπ,aiπ[i=1Tγi(riδi)]
所以动作价值的估计函数学习的目标是累计回报与TD error之差的期望。

2.2 clipped Double Q-learning

y 1 = r + γ ⋅ m i n i = 1 , 2 Q θ i ′ ( s ′ , π ϕ 1 ( s ′ ) ) y_1 = r+\gamma\cdot min_{i=1,2}Q_{\theta _ i^{'}}(s^{'},\pi_{\phi _1}(s^{'})) y1=r+γmin

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值