Cross Q: Batch Normalization in Deep Reinforcement Learning for Greater Sample Efficiency and...

最新推荐文章于 2025-12-01 19:45:15 发布

原创

最新推荐文章于 2025-12-01 19:45:15 发布 · 1.3k 阅读

·

23

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文提出CrossQ算法，通过移除TargetQ网络和使用Tanh/BatchNormalization，结合SAC，在UTD=1条件下达到样本效率的最优表现。同时，拓宽Q网络结构也显著提高了算法性能。

ICLR 2024 spotlight
paper

Introduction

提高智能体Sample efficiency是强化学习关键问题。REDQ以及DroQ通过提高UTD有效实现。本文提出的Cross Q利用Batch Normalization以及移除target Q的设定，结合SAC进一步提升算法的sample efficiency，在UTD=1也能达到SOTA表现。

Method

REMOVING TARGET NETWORKS

SAC中使用target Q并延迟soft update，虽然稳定更新但在一定程度减缓更新。本文通过实验指出，相较于以往的Q网络利用relu激活函数，移除targetQ并使用有界激活函数(Tanh)或特征归一化器(Batch Normalization)足以防止在没有目标网络的情况下的临界发散。
在这里插入图片描述
移除target Q后的，基于均方Bellman误差对Q进行跟新的损失函数，对比以往的方法如下

此时Q网络的输入为连续的两个状态及其动作，特别的

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。