AAAI 2023
paper
利用价值函数解决序列模型拼接能力的离线算法
Intro
文章提出了一种新的离线强化学习方法,名为“Critic-Guided Decision Transformer”(CGDT)。该方法基于“Return-Conditioned Supervised Learning”(RCSL)范式,旨在解决现有RCSL方法在处理随机环境和需要“stitching”能力的场景中的局限性。CGDT 结合了基于价值的方法来预测长期回报,并利用决策变换器(Decision Transformer)对轨迹进行建模。通过引入一个学习到的价值函数(即“critic”),CGDT 确保了指定目标回报与动作的预期回报之间的直接对齐。这种方法弥合了RCSL的确定性本质与基于价值的方法的概率特征之间的差距。在随机环境和D4RL基准数据集上的实证评估表明,CGDT 优于传统的RCSL方法。这些结果突出了CGDT 在离线RL领域的潜力,并扩展了RCSL在各种RL任务中的适用性。
Method

Asymmetric Critic Training
采用高斯部分对价值函数Q分布进行建模:
L Q ( ϕ ) = − ∣ τ c − I ( u > 0 ) ∣ log Q ϕ ( R t ∣ τ 0 : t − 1 , s t , a t ) , ( 2 ) \mathcal{L}_Q(\phi)=-|\tau_c-\mathbb{I}(u>0)|\log Q_\phi(R_t|\tau_{0:t-1},s_t,a_t),(2) LQ(ϕ)=−∣τc−I(u>0)∣logQϕ(Rt∣τ0:t−1,st,at),(2)
其中 : u = ( R t − μ t ) / σ t , a n d ( μ t , σ t ) ∼ Q ϕ ( ⋅ ∣ τ 0 : t − 1 , s t , a t ) , R t = ∑ t T r t :u=(R_t-\mu_t)/\sigma_t,\mathrm{and}(\mu_t,\sigma_t)\sim Q_\phi(\cdot|\tau_{0:t-1},s_t,a_t), R_t=\sum_t^Tr_t :u=(Rt−μ

最低0.47元/天 解锁文章
446

被折叠的 条评论
为什么被折叠?



