Offline RL : StARformer: Transformer With State-Action-Reward Representations for Robot Learning

StARformer:Transformer融合局部与全局信息在强化学习中的应用

IEEE PAMI 2023
ECCV 2022
paper
code
额外添加Transformer捕捉单时间步中的关键信息,并作为goal加入到T序列模型中学习策略

Intro

在这里插入图片描述

  1. StARformer由Step Transformer和Sequence Transformer两个基本组件组成,并通过交错连接进行交互。
  2. Step Transformer学习局部表示(即StAR-representations),通过在单个时间步长的窗口内自注意力机制处理状态-动作-奖励token。
  3. Sequence Transformer结合StAR-representations和纯图像状态表示(卷积特征提取),对整个序列进行自注意力操作以进行动作预测。

method

Step Transformer

将一段轨迹按 ( a t − 1 , r t − 1 , s t ) (a_{t-1}, r_{t-1}, s_t) (at1,rt1,st)分成多个group。其中状态图片分解为N个Patch,
在这里插入图片描述

State-Action-Reward Embeddings

对状态,动作以及奖励分别按照如下进行embedding
z s t i = F C ( F l a t t e n ( s t i ) ) + e i s p a t i a l z a t − 1 = F C ( a t − 1 ) , z r t = T a n h ( F C ( r t ) ) . \begin{align} z_{s_t^i}&=\mathrm{FC}(\mathrm{Flatten}(s_t^i))+e_i^\mathrm{spatial}\\z_{a_{t-1}}&=\mathrm{FC}(a_{t-1}),z_{r_t}=\mathrm{Tanh}(\mathrm{FC}(r_t)). \end{align} zstizat1=FC(Flatten(sti))+eispatial=FC(at1),zrt=Tanh(FC(rt

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值