Abstract

强化学习智能体在缺乏监督信号时如何高效完成不同类型的视觉任务存在挑战,主要包含两方面:1)对new goal 的高效选取 2)并可靠地成功实践出该目标。本文提出LEXA(Latent Explorer Achiever)方法,设计world model,结合训练的explore policy,通过规划得到丰富的全新状态。这些状态将作为目标用于achiever policy的训练,实现zero-shot的泛化能力。
code
paper
Introduction
传统强化学习解决机器人视觉任务,需要领域知识、访问目标位置,耗时且容易受人为错误影响。面对新任务还需要重新探索学习。本文则是利用无监督的Goal-conditioned RL方法学习多个任务后,然后由用户指定目标图像实现任务解决,无需进一步训练。
提高探索(exploration)是无监督范式下问题的关键。过往方法对goal的设置来自访问过的状态,本文提出的方法便是对目标的扩展。
Methodology
World Model
采用RSSM结构的世界模型

通过优化证据下界ELBO实现World Model的优化。
Explorer
探索者策略
π
e
(
a
t
∣
s
t
)
\pi^e(a_t\mid s_t)
πe(at∣st)的目标是利用上述world model 进行rollout, 找到信息两最为丰富的状态最为goal。这里采用1-step预测的ensemble 模型预测下一状态,而方差的均值则衡量了状态的信息量。
r
t
e
(
s
t
)
≐
1
N
∑
n
V
a
r
{
k
}
[
f
(
s
t
,
θ
k
)
]
n
r_t^\mathrm{e}(s_t)\doteq\frac1N\sum_n\mathrm{Var}_{\{\mathrm{k}\}}\left[f(s_t,\theta_k)\right]_n
rte(st)≐N1n∑Var{k}[f(st,θk)]n
这里采用Dreamer最大化奖励函数进而实现探索者策略
π
e
\pi^e
πe与价值函数
v
e
(
s
t
)
v^{e}(s_{t})
ve(st)的优化。同时
π
e
\pi^e
πe定期部署在环境中,以向重放缓冲区添加新的轨迹,因此世界模型和achiever策略可以改进。
Achiever
实践者将采样来自真实环境的goal并embedding,联合tate作为策略的输入,即 π g ( a t ∣ s t , e g ) \pi^g(a_t\mid s_t, e_g) πg(at∣st,eg)。其中 e q = enc ϕ ( x g ) e_{q}=\operatorname{enc}_{\phi}(x_{g}) eq=encϕ(xg)。
优化该策略同样采用Dreamer。所设计的奖励
r
t
g
(
s
t
,
e
g
)
r_t^g(s_t,e_g)
rtg(st,eg)和与goal的距离度量相关。一种是当前latent state
s
t
s_t
st与goal的余弦距离:

或者是经过多少step到达goal, 越近奖励越高。

r
t
g
(
s
t
,
e
g
)
=
−
d
ω
(
e
^
t
,
e
g
)
,
w
h
e
r
e
e
^
t
=
e
m
b
(
s
t
)
,
e
g
=
e
n
c
ϕ
(
x
g
)
r_t^g(s_t,e_g)=-d_\omega(\hat{e}_t,e_g),\quad\mathrm{where}\quad\hat{e}_t=\mathrm{emb}(s_t),\quad e_g=\mathrm{enc}_\phi(x_g)
rtg(st,eg)=−dω(e^t,eg),wheree^t=emb(st),eg=encϕ(xg)
算法整体伪代码如下。

总结
LEXA利用world model 对goal-conditioned RL中的goal进行了丰富,从而提高智能体的探索。对新目标的定义,则是通过ensemble模型给出的uncertainty决定。而将策略分为探索者以及实践者,无监督范式实现了zero-shot。
本文提出LEXA方法,通过优化WorldModel和分离的Explorer与Achiever策略,解决强化学习中无监督情况下对新目标的高效选取和实践问题,实现零样本泛化。方法利用ensemble模型预测不确定性作为目标,推动智能体探索,无需针对新任务重新训练。
1162





