Intro
Dreamer系列的model-based的方法需要通过解码器,将状态 z t = [ h t , s t ] z_{t}=[h_{t},s_{t}] zt=[ht,st]重构为观测状态进而优化世界模型。这导致面对高位图像输入时计算复杂度高。
J D R E A M E R = ∑ t = 1 T E q [ log p ( o t ∣ h t , s t ) ⏟ J o t + log p ( r t ∣ h t , s t ) ⏟ J R t − D K L ( q ( s t ∣ h t , o t ) ∥ p ( s t ∣ h t ) ) ⏟ J K L t ] \mathcal{J}_{\mathrm{DREAMER}}=\sum_{t=1}^{T}\mathbb{E}_{q}[\underbrace{\log p(o_{t}\mid h_{t},s_{t})}_{\mathcal{J}_{\mathrm{o}}^{t}}+\underbrace{\log p(r_{t}\mid h_{t},s_{t})}_{\mathcal{J}_{\mathrm{R}}^{t}}-\underbrace{D_{\mathrm{KL}}(q(s_{t}\mid h_{t},o_{t})\parallel p(s_{t}\mid h_{t}))}_{\mathcal{J}_{\mathrm{KL}}^{t}}] JDREAMER=t=1∑TEq[Jot
logp(ot∣ht,st)+JRt
logp(rt∣ht,st)−J

最低0.47元/天 解锁文章
2414

被折叠的 条评论
为什么被折叠?



