O2O:Improving Offline-to-Online Reinforcement Learning with Q-Ensemble

本文探讨了如何在离线学习的保守估计与在线阶段的高效探索间找到平衡,提出了Ensemble-basedO2O算法E2O,利用Q-ensemble策略和不同的Q估计形式,如MinQ、MeanQ等,以提高学习效率并保持训练稳定性。文中还比较了不同优化探索方法,如BootstrappedDQN和OAC/SUNRISE。

ICML workshop 2023
paper
Q-ensemble 大法好

Introduction

保守的离线学习方法在迁移到在线过程中,会由于保守的Q值估计限制智能体在线探索,导致策略缓慢提升;而若不保持保守的估计又容易因为OOD的数据导致Q过估计,进而让学习不稳定。如下图a所示
在这里插入图片描述
如何找到一种方法既能保守估计又能不限制在线探索?Q-ensemble就能给出解决方法。而一系系列的关于基于ensemble Q的估计方法也证明有效。正如上图中a采用CQL-N以及SAC-N结合的O2O方法。图c则则证明ensemble的方式让策略有可选择的动作分布,相较于保守的CQL更为广泛。基于上述发现,本文提出Ensemble-based O2O算法E2O。

Method

Q ensemble

E2O在离线学习阶段,基于CQL算法对target Q设置多个Q估计并选择最小值作为最终结果。如果在线阶段也采用相同ensemble估计形式,虽然不会出现performance drop,渐进稳定性也较好。但是无法快速改进。因此,下面重点转移到分析我们是否可以适当地放松在线阶段Q值的悲观估计,以进一步提高学习效率,同时确保稳定的训练。

在这里插入图片描述

在RGB-红外目标检测中,为了提升多模态信息的融合效果,采用从粗到细的融合方法(Coarse-to-Fine Fusion)是一种有效的策略。这一方法的核心思想是模拟人类大脑在处理多模态信息时的过滤与选择机制,即先去除干扰信息,再进行特征的精细选择,从而实现互补特征的有效融合[^1]。 ### 冗余光谱去除(RSR)模块 在“粗”阶段,设计了冗余光谱去除(Redundant Spectrum Removal, RSR)模块。该模块通过将图像转换到频域空间,并引入动态滤波器,以自适应地减少RGB和IR模态中不相关的频谱。这样可以初步过滤掉不必要的冗余信息,保留对目标检测有帮助的关键频谱[^1]。例如,在频域中应用动态滤波器时,可以通过以下代码实现频谱的自适应调整: ```python import numpy as np import cv2 def apply_dynamic_filter(image): # 将图像转换为频域 f = np.fft.fft2(image) fshift = np.fft.fftshift(f) # 动态滤波器设计 rows, cols = image.shape crow, ccol = rows // 2, cols // 2 mask = np.ones((rows, cols), np.uint8) mask[crow - 30:crow + 30, ccol - 30:ccol + 30] = 0 # 动态调整滤波区域 # 应用滤波器 fshift_filtered = fshift * mask f_ishift = np.fft.ifftshift(fshift_filtered) img_back = np.fft.ifft2(f_ishift) img_back = np.abs(img_back) return img_back ``` ### 动态特征选择(DFS)模块 在“细”阶段,设计了动态特征选择(Dynamic Feature Selection, DFS)模块,用于在RGB和IR模态之间精细选择所需的特征。该模块通过探索不同尺度特征的组合,权衡对象检测所需的不同尺度信息,从而进一步提升检测性能。DFS模块能够根据任务需求,自适应地选择最相关的特征,确保最终融合的特征具有更强的判别能力[^1]。 ### 去除与选择检测器(RSDet) 为了验证该融合策略的有效性,构建了一个新的目标检测框架——去除与选择检测器(Removal and Selection Detector, RSDet)。该框架嵌入了从粗到细的融合策略,能够在RGB-红外目标检测任务中实现更优的性能表现。在多个公开的RGB-红外检测数据集上的实验结果表明,RSDet能够有效促进互补融合,并达到了当前最先进的性能水平[^3]。 ### 改进方向 为了进一步提升RGB-红外目标检测的效果,可以从以下几个方面进行改进: - **更精细的频谱分析**:在RSR模块中引入更复杂的频谱分析方法,例如基于深度学习的频谱注意力机制,以提高频谱过滤的精度。 - **多尺度特征融合**:在DFS模块中引入多尺度特征金字塔网络(Feature Pyramid Network, FPN),以更好地捕捉不同尺度的目标特征。 - **端到端优化**:将整个融合过程设计为端到端可训练的结构,使RSR和DFS模块能够协同优化,提升整体检测性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值