IEEE PAMI 2023
ECCV 2022
paper
code
额外添加Transformer捕捉单时间步中的关键信息,并作为goal加入到T序列模型中学习策略
Intro

- StARformer由Step Transformer和Sequence Transformer两个基本组件组成,并通过交错连接进行交互。
- Step Transformer学习局部表示(即StAR-representations),通过在单个时间步长的窗口内自注意力机制处理状态-动作-奖励token。
- Sequence Transformer结合StAR-representations和纯图像状态表示(卷积特征提取),对整个序列进行自注意力操作以进行动作预测。
method
Step Transformer
将一段轨迹按 ( a t − 1 , r t − 1 , s t ) (a_{t-1}, r_{t-1}, s_t) (at−1,rt−1,st)分成多个group。其中状态图片分解为N个Patch,

State-Action-Reward Embeddings
对状态,动作以及奖励分别按照如下进行embedding
z s t i = F C ( F l a t t e n ( s t i ) ) + e i s p a t i a l z a t − 1 = F C ( a t − 1 ) , z r t = T a n h ( F C ( r t ) ) . \begin{align} z_{s_t^i}&=\mathrm{FC}(\mathrm{Flatten}(s_t^i))+e_i^\mathrm{spatial}\\z_{a_{t-1}}&=\mathrm{FC}(a_{t-1}),z_{r_t}=\mathrm{Tanh}(\mathrm{FC}(r_t)). \end{align} zstizat−1=FC(Flatten(sti))+eispatial=FC(at−1),zrt=Tanh(FC(rt
StARformer:Transformer融合局部与全局信息在强化学习中的应用

最低0.47元/天 解锁文章
2105

被折叠的 条评论
为什么被折叠?



