Offline RL: BAIL: Best-Action Imitation Learning for Batch Deep Reinforcement Learning

最新推荐文章于 2025-12-04 13:49:48 发布

原创最新推荐文章于 2025-12-04 13:49:48 发布 · 804 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

强化学习同时被 3 个专栏收录

101 篇文章

订阅专栏

离线强化学习

41 篇文章

订阅专栏

模仿学习

13 篇文章

订阅专栏

本文介绍了BAIL方法如何通过神经网络学习离线数据的上包络，确保策略与数据一致。方法包括正则化优化问题的转化，以及从数据集中选择动作的两种策略。最后，策略通过BC方法进行进一步优化。

NIPS 2020
paper

Intro

考虑一个Deterministic MDP以及Offline dataset ${s,a,s',r\}$ ，BAIL的核心观点认为最优策略应该满足 $G(s,a^*)=V*(s)$ ，那自然由三步走：（1）神经网络V学习offline dataset的"upper envelope of the data".（2）选择动作让Monte Carlo的return与V一致（3）利用模仿学习让策略近似选择的动作

Method

Upper envelope of the data

假设离线数据来自于任意策略与环境交互并以序列的形式存储。构造神经网络V近似累计回报
$\min_{\phi}\sum_{i=1}^{m}[V_{\phi}(s_{i})-G_{i}]^{2}+\lambda\|w\|^{2}\quad s.t.\quad V_{\phi}(s_{i})\geq G_{i}=\sum_{t=i}^{T}\gamma^{t-i}r_{t},$
λ 正则化的上包络始终位于所有返回之上。优化问题努力在保持正则化以防止过拟合的同时，使包络尽可能地接近数据。
在这里插入图片描述

在这里插入图片描述
基于上述定理， $\lambda$ 存在一个值提对上述优化问题提供最优泛化。本文提出将上述问题转化为无约束问题：
$L^K(\phi)=\sum_{i=1}^m(V_\phi(s_i)-G_i)^2\{1_{(V_\phi(s_i)\geq G_i)}+K\cdot1_{(V_\phi(s_i)<G_i)}\}+\lambda\|w\|^2$
其中K远大于1(本文取值1000)