NIPS 2020
paper
Intro
考虑一个Deterministic MDP以及Offline dataset { s , a , s ′ , r } \{s,a,s',r\} {s,a,s′,r},BAIL的核心观点认为最优策略应该满足 G ( s , a ∗ ) = V ∗ ( s ) G(s,a^*)=V*(s) G(s,a∗)=V∗(s),那自然由三步走:(1)神经网络V学习offline dataset的"upper envelope of the data".(2)选择动作让Monte Carlo的return与V一致 (3)利用模仿学习让策略近似选择的动作
Method
Upper envelope of the data
假设离线数据来自于任意策略与环境交互并以序列的形式存储。构造神经网络V近似累计回报
min
ϕ
∑
i
=
1
m
[
V
ϕ
(
s
i
)
−
G
i
]
2
+
λ
∥
w
∥
2
s
.
t
.
V
ϕ
(
s
i
)
≥
G
i
=
∑
t
=
i
T
γ
t
−
i
r
t
,
\min_{\phi}\sum_{i=1}^{m}[V_{\phi}(s_{i})-G_{i}]^{2}+\lambda\|w\|^{2}\quad s.t.\quad V_{\phi}(s_{i})\geq G_{i}=\sum_{t=i}^{T}\gamma^{t-i}r_{t},
ϕmini=1∑m[Vϕ(si)−Gi]2+λ∥w∥2s.t.Vϕ(si)≥Gi=t=i∑Tγt−irt,
λ 正则化的上包络始终位于所有返回之上。优化问题努力在保持正则化以防止过拟合的同时,使包络尽可能地接近数据。


基于上述定理,
λ
\lambda
λ存在一个值提对上述优化问题提供最优泛化。本文提出将上述问题转化为无约束问题:
L
K
(
ϕ
)
=
∑
i
=
1
m
(
V
ϕ
(
s
i
)
−
G
i
)
2
{
1
(
V
ϕ
(
s
i
)
≥
G
i
)
+
K
⋅
1
(
V
ϕ
(
s
i
)
<
G
i
)
}
+
λ
∥
w
∥
2
L^K(\phi)=\sum_{i=1}^m(V_\phi(s_i)-G_i)^2\{1_{(V_\phi(s_i)\geq G_i)}+K\cdot1_{(V_\phi(s_i)<G_i)}\}+\lambda\|w\|^2
LK(ϕ)=i=1∑m(Vϕ(si)−Gi)2{1(Vϕ(si)≥Gi)+K⋅1(Vϕ(si)<Gi)}+λ∥w∥2
其中K远大于1(本文取值1000)
Selecting the best actions
考虑两种方法从离线数据集中选取(s,a)。
- G i > x V ( s i ) G_i>xV(s_i) Gi>xV(si): 按照百分比,本文设置 x = 0.25 x=0.25 x=0.25
- G i ≥ V ( s i ) − x G_i\geq V(s_i)-x Gi≥V(si)−x:按具体数值
在完成收集(s,a)后采用BC方法优化策略。

本文介绍了BAIL方法如何通过神经网络学习离线数据的上包络,确保策略与数据一致。方法包括正则化优化问题的转化,以及从数据集中选择动作的两种策略。最后,策略通过BC方法进行进一步优化。
6398

被折叠的 条评论
为什么被折叠?



