Offline: Look Beneath the Surface: Exploiting Fundamental Symmetry for Sample-Efficient Offline RL

ICML 2023 Workshop SCIS Poster
paper
code

Intro

研究在有限的且覆盖范围狭窄的数据集中学习到一个可靠的策略。具体来说,通过结合时间反演对称性(T-对称性),在隐空间中对前向和反向的动力学过程的一致性建立动力学模型(TDM)。文章发现TDM为小样本数据集提供了良好可靠的的表示空间,并可以基于T-对称性为衡量指标为OOD样本进行度量。基于此构造了一个新的离线RL算法(TSRL),该算法具有较少保守的策略约束和一个可靠数据增强方法。在D4RL数据上即使只有原始样本的1%,该算法的性能显著优于现有的离线RL算法

Metho

时间反演对称

文章指出大多数的现实环境模型中,可以用非线性一阶常微分方程近似动力学模型,若存在可逆变换 Γ : Ω ↦ Ω \Gamma:\Omega\mapsto\Omega Γ:ΩΩ使得方程 d Γ ( x ) / d t = − F ( Γ ( x ) ) d\Gamma(\mathbf{x})/dt=-F(\Gamma(\mathbf{x})) dΓ(x)/dt=F(Γ(x)),则称为ODE系统是时间反转对称。定义时间演化算子 U Δ t : x ( t ) ↦ U Δ t ( x ( t ) ) = x ( t + Δ t ) U_{\Delta t}:\mathbf{x}(t)\mapsto U_{\Delta t}(\mathbf{x}(t))=\mathbf{x}(t+\Delta t) UΔt:x(t)UΔt(x(t))=x(t+Δt)。T-对称表明 Γ ∘ U τ = U − τ ∘ Γ \Gamma\circ U_{\tau}=U_{-\tau}\circ\Gamma ΓUτ=UτΓ(复合映射),即任意状态的前向时间演化的反转应该等于反向状态的后向时间演化。

在时间离散的MDP中, x = ( s , a ) x=(s,a) x=(s,a),方程为 s ˙ = d s d t = s ′ − s \dot{s}=\frac{ds}{dt} = s'-s s˙=dtds=ss。此时前向模型为 F ( s , a ) = s ˙ F(s,a)=\dot{s} F(s,a)=s˙而反向模型为 − G ~ ( s ′ , a ′ ) . -\tilde{G}(s',a'). G~(s,a).二者相等。为了避免下一时刻状态产生不可逆的动作或者特殊的动力学过程,设置反向模型中的动作为 a a a.

TDM

在这里插入图片描述
TDM为encoder-decoder的架构,其中解码器额外添加 δ s = 0 \delta_{s}=0 δs=0是指引其解码结果目标为状态值, δ = 1 \delta=1 δ=1为解码目标为 s ˙ \dot{s} s˙。encoder-decoder的损失函数由两个MSE构成
ℓ r e c ( s , a ) = ∥ s − ψ s ( z s , 0 ) ∥ 2 2 + ∥ a − ψ a ( z a ) ∥ 2 2 \ell_{rec}(s,a)=\|s-\psi_s(z_s,0)\|_2^2+\|a-\psi_a(z_a)\|_2^2 rec(s,a)=sψs(zs,0)22+aψa(za)22

隐变量前向模型 f ( z s , z a ) = z ˙ s f(z_s, z_a) = \dot{z}_s f(zs,za)=z˙s中,目标是让 z ˙ s = z s ′ − z s z ˙ s = z s ′ − z s \dot{z}_s=z_{s^{\prime}}-z_s\dot{z}_s=z_{s^{\prime}}-z_s z˙s=zszs

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值