Learning Latent Dynamics for Planning from Pixels
1 介绍
输入图像经过编码网络(灰色梯形)变成隐藏状态(绿色),然后隐藏状态可以被映射成奖励和图片。
为了预演,我们将当前图片经过编码网络变成当前隐藏状态变成绿色,然后进行各个序列的虚拟预测,计算各个序列的奖励,最后返回最好序列的第一个action执行
2 算法
Deep planning net
planning algorithm
training loss
loss 可以分为两项,第一项为通过sts_tst预测的oto_tot与真实的oto_tot的MSE,第二项为上图实线对应的p(st∣st−1,at−1)p(s_t|s_{t-1},a_{t-1})p(st∣st−1,at−1)和虚线对应的q(st∣st−1,at−1,ot)q(s_t|s_{t-1},a_{t-1},o_t)q(st∣st−1,at−1,ot)的KL散度
3种model
RNN中hth_tht为确定数值,SSM中sts_tst为随机变量,由均值和方差组成,RSSM结合两种model,sts_tst为随机变量,hth_tht为确定数值。
4 实验结果
与之前的强化学习算法相比,训练效率提升50倍。