前言
MaskFormer系列论文发展的大致脉络如下图所示。
2017年Transformer的提出为图像检测、分类和分割任务提供了新思路。
2020年DETR将Transformer引入到目标检测领域,提出了Query Based的端到端目标检测算法,去除了NMS / anchor等人工先验,把目标检测看作一个集合预测问题。
2021年MaskFormer借鉴DETR的思路,将语义分割和实例分割的问题统一定义为mask分类问题,去除NMS / anchor等人工先验,把实例分割看作一个集合预测问题。
2021年底,mask2former的提出对maskformer进一步改进。
mask2former在maskformer的基础上主要做了3个方面的改进。
- 在Transformer Decoder中交换自注意力(self-attention)和交叉注意力(cross-attention)的顺序(称为“masked attention"),加速模型的收敛并提高性能
- 使用多尺度高分辨率特征,把pixel decoder的不同层作特征金字塔分别输入到transformer decoder的不同层中,帮助模型分割小目标 / 区域
- 在K个采样随机点而非全图上计算mask loss,在不影响性能的前提下,将训练内存节省了3倍,从每张图像18GB到6GB。
1. 模型整体结构
模型整体结构与MaskFormer大体一致,由三个部分组成:
- backbone特征提取器
- pixel decoder
- Transformer d

Mask2Former在MaskFormer基础上改进了TransformerDecoder,交换了自注意力和交叉注意力的顺序,引入多尺度特征和随机采样计算maskloss,提升了模型性能和训练效率。
最低0.47元/天 解锁文章
1358

被折叠的 条评论
为什么被折叠?



