2023发表在cvpr
论文链接
代码链接u-mixformer/README.md at main · julian-klitzing/u-mixformer · GitHub
先上结果
整体架构
编码器没有特别的部分,在此主要介绍xkv与decoder部分:
本文提出的Xkv与以往不同,根据不同的stage生成不同的Xkv,具体来说
第一步,首先生成Fi,N代表4个stage,我们这里举个例子,比如F1,对应stage4,他的Xkv按照公式为E1,E2,E3,E4也就是四个stage输出的集合。再比如stage3,他的Xkv按照公式为E1,E2,E3,D4的集合,也就是将stage3 encoder的输出换为了decoder的输出。
第二步
将集合的前三特征图进行平均池化与线性映射处理,处理后再与第四个拼接。得到最后的Xkv
decoder部分就很简单,直接放出结构图大家就能理解了: