扩散世界模型已训练出赶超人类的智能体?

论文标题:

Diffusion for World Modeling:Visual Details Matter in Atari

论文作者:

Eloi Alonso, Adam Jelley, Vincent Micheli, Anssi Kanervisto, Amos Storkey, Tim Pearce, François Fleuret

项目地址:

https://github.com/eloialonso/diamond

导读:

最近的世界模型主要是在离散潜在变量序列上操作来模拟环境动力学。然而,这种压缩成紧凑的离散表示可能会忽略对强化学习很重要的视觉细节,同时扩散模型也已经成为了图像生成的主要方法。在这种范式转变的推动下,通过引入在扩散世界模型中训练强化学习智能体DIAMOND
(DIffusion As a Model Of eNvironment Dreams)所需的关键设计选择,在Atari
100K基准测试中,DIAMOND达到了1.46的人类标准化平均分。©️【深蓝AI】编译

1. 引言

最近的世界建模方法经常将环境动力学建模作为一系列离散潜在变量。潜在空间的离散化有助于避免多步时间范围内的复合误差。然而,这种编码可能会丢失信息,从而导致通用性和重建质量的损失。对于任务所需的信息不太明确的现实场景,例如训练自动驾驶汽车场景,这可能会带来一些问题。在这种情况下,视觉输入中的小细节(如交通灯或远处的行人)可能会改变代理的策略。增加离散电位的数量可以减轻这种有损压缩,但随之而来的是计算成本的增加。

扩散模型已经成为高分辨率图像生成的主导范式,同时易于调节,可以灵活地模拟复杂的多模态分布而不会发生模态崩溃。这些属性有助于进行世界建模,因为遵守条件作用应该允许世界模型更紧密地反映代理的行为,从而产生更可靠的信用分配,并且建模多模态分布应该为代理提供更大的训练场景多样性。

基于这些特征,研究者提出了在扩散世界模型中训练的强化学习智能体DIAMOND(DIffusion As a Model Of eNvironment Dreams),谨慎的设计选择以确保我们的扩散世界模型在长期内是有效和稳定的。DIAMOND在公认的Atari 100K基准上达到了1.46的人类标准化平均分,是完全在世界模型中训练的特工新技术。此外,在图像空间中操作的好处是使扩散世界模型能够替代环境,从而更深入地了解世界模型和代理行为。

2. 前提知识

2.1 强化学习和世界模型

将环境建模为标准的部分可观察马尔可夫决策过程(POMDP: S , A , O , T , R , O , γ S,A,O,T,R,O,γ S,A,O,T,R,Oγ),其中 S S S是状态的集合, a a a是离散动作的集合, O O O是图像观测的集合。跃迁函数 T : S × A × S → [ 0 , 1 ] T:S \times A \times S \to [0,1] T:S×A×S[0,1]描述环境动态 p ( s t + 1 ∣ s t , a t ) p(s_{t+1}|s_t,a_t) p(st+1st,at),并且奖励函数 R : S × A × S → R R:S \times A \times S \to \mathbb{R} R:S×A×SR将转换映射到标量奖励。由于中间过程不能直接访问状态 s t s_t st,只能通过图像观测值 x t ϵ O x_t \epsilon O xtϵO看到环境,这些观测值是根据观测概率 p ( x t ∣ s t ) p(x_t |s_t) p(xtst)发出的,由观测函数描述 O : S × O → [ 0 , 1 ] O:S \times O \to [0,1] O:S×O[0,1]。目标是获得一个策略π,它将观测映射到行动,以最大化预期收益 E π [ ∑ t ≥ 0 γ r r t ] \mathbb{E}_ \pi [ {\textstyle \sum_{t\ge 0} \gamma ^r r_t} ] Eπ[t0γrrt],其中 γ ∈ [ 0 , 1 ] γ∈[0,1] γ[0,1]是折扣因子。世界模型是环境的生成模型,即 p ( s t + 1 , r t ∣ s t , a t ) p(s_{t+1},r_t|s_t,a_t) p(st+1,rtst,at)模型。这些模型可以用作模拟环境,以样本高效的方式训练强化学习代理。在这种范例中,训练过程通常由以下三个步骤组成:

· 在真实环境中使用RL代理收集数据;

· 在所有收集到的数据上训练世界模型;

· 在世界模型环境中训练RL智能体。

2.2 基于分数的扩散模型

扩散模型是一类受非平衡热力学启发的生成模型,通过反转噪声过程生成样本。考虑一个由连续时间变量 τ ∈ [ 0 , T ] τ∈[0,T] τ[0,T]索引的扩散过程 { x τ } τ ϵ [ 0 , τ ] \left \{ {x^\tau } \right \} _{\tau \epsilon[0,\tau ] } { xτ}τϵ[0,τ],其相应的边际 { p τ } τ ϵ [ 0 , τ ] \left \{ {p^\tau } \right \} _{\tau \epsilon[0,\tau ] } { pτ}τϵ[0,τ],以及边界条件 p o = p d a t a p^o = p^{data} po=pdata p τ = p p r i o r p^\tau = p^{prior} pτ=pprior,其中 p p r i o r p^{prior} pprior一个可处理的非结构化先验分布。这个扩散过程可以被描述为标准随机微分方程(SDE)的解:

d x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值