Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic

ICML 2024:构造混合Bellman算子平衡探索与利用

ICML 2024
paper
code

intro

以往在线强化学习通常利用Double-clip Q 防止Q值高估问题,本文则是指出这样的操作以及Bellman算子实现中通过神经网络拟合 max ⁡ \max max
的方式,导致replaybuffer中的某些有潜在高质量的样本价值被低估。因此,本文重新构造了一种混合的bellman算子实现探索与利用的平衡。

method

文章通过对SAC以及TD3剔除Clip-Q,发现仍然存在价值低估问题。指出这是由bellman算子导致。传统Q迭代过程中, Q ( s , a ) ← r ( s , a ) + γ E s ′ [ max ⁡ a ′ Q ( s ′ , a ′ ) ] . Q(s,a)\leftarrow r(s,a)+\gamma\mathbb{E}_{s^{\prime}}[\max_{a^{\prime}}Q(s^{\prime},a^{\prime})]. Q(s,a)r(s,a)+γEs[maxaQ(s,a)].中max难以计算,因此在计算target-Q时采用的采用求期望 E s , a ∼ π [ Q ( s , a ) ] E_{s,a \sim \pi} [Q(s,a)] Es,aπ[Q(s,a)]。正是这样的操作使得有些样本的价值估计低估的可能增大。随后,文章通过计算replaybuffer中最优历史策略的价值与在线策略期望价值的残差,证明这种低估随着训练的进行一直存在。
Δ ( μ k , π k ) = E s [ max ⁡ a ∼ μ k Q μ k ( s , a ) − E a ∼ π k [ Q π k ( s , a ) ] ] \Delta(\mu_k,\pi_k)=\mathbb{E}_s\left[\max_{a\sim\mu_k}Q^{\mu_k}(s,a)-\mathbb{E}_{a\sim\pi_k}\left[Q^{\pi_k}(s,a)\right]\right] Δ(μk,π

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值