ICML 2023 Workshop SCIS Poster
paper
code
Intro
研究在有限的且覆盖范围狭窄的数据集中学习到一个可靠的策略。具体来说,通过结合时间反演对称性(T-对称性),在隐空间中对前向和反向的动力学过程的一致性建立动力学模型(TDM)。文章发现TDM为小样本数据集提供了良好可靠的的表示空间,并可以基于T-对称性为衡量指标为OOD样本进行度量。基于此构造了一个新的离线RL算法(TSRL),该算法具有较少保守的策略约束和一个可靠数据增强方法。在D4RL数据上即使只有原始样本的1%,该算法的性能显著优于现有的离线RL算法
Metho
时间反演对称
文章指出大多数的现实环境模型中,可以用非线性一阶常微分方程近似动力学模型,若存在可逆变换 Γ : Ω ↦ Ω \Gamma:\Omega\mapsto\Omega Γ:Ω↦Ω使得方程 d Γ ( x ) / d t = − F ( Γ ( x ) ) d\Gamma(\mathbf{x})/dt=-F(\Gamma(\mathbf{x})) dΓ(x)/dt=−F(Γ(x)),则称为ODE系统是时间反转对称。定义时间演化算子 U Δ t : x ( t ) ↦ U Δ t ( x ( t ) ) = x ( t + Δ t ) U_{\Delta t}:\mathbf{x}(t)\mapsto U_{\Delta t}(\mathbf{x}(t))=\mathbf{x}(t+\Delta t) UΔt:x(t)↦UΔt(x(t))=x(t+Δt)。T-对称表明 Γ ∘ U τ = U − τ ∘ Γ \Gamma\circ U_{\tau}=U_{-\tau}\circ\Gamma Γ∘Uτ=U−τ∘Γ(复合映射),即任意状态的前向时间演化的反转应该等于反向状态的后向时间演化。
在时间离散的MDP中, x = ( s , a ) x=(s,a) x=(s,a),方程为 s ˙ = d s d t = s ′ − s \dot{s}=\frac{ds}{dt} = s'-s s˙=dtds=s′−s。此时前向模型为 F ( s , a ) = s ˙ F(s,a)=\dot{s} F(s,a)=s˙而反向模型为 − G ~ ( s ′ , a ′ ) . -\tilde{G}(s',a'). −G~(s′,a′).二者相等。为了避免下一时刻状态产生不可逆的动作或者特殊的动力学过程,设置反向模型中的动作为 a a a.
TDM

TDM为encoder-decoder的架构,其中解码器额外添加 δ s = 0 \delta_{s}=0 δs=0是指引其解码结果目标为状态值, δ = 1 \delta=1 δ=1为解码目标为 s ˙ \dot{s} s˙。encoder-decoder的损失函数由两个MSE构成
ℓ r e c ( s , a ) = ∥ s − ψ s ( z s , 0 ) ∥ 2 2 + ∥ a − ψ a ( z a ) ∥ 2 2 \ell_{rec}(s,a)=\|s-\psi_s(z_s,0)\|_2^2+\|a-\psi_a(z_a)\|_2^2 ℓrec(s,a)=∥s−ψs(zs,0)∥22+∥a−ψa(za)∥22
隐变量前向模型 f ( z s , z a ) = z ˙ s f(z_s, z_a) = \dot{z}_s f(zs,za)=z˙s中,目标是让 z ˙ s = z s ′ − z s z ˙ s = z s ′ − z s \dot{z}_s=z_{s^{\prime}}-z_s\dot{z}_s=z_{s^{\prime}}-z_s z˙s=zs′−zs

最低0.47元/天 解锁文章

4117

被折叠的 条评论
为什么被折叠?



