Mask2Former阅读笔记

Mask2Former:TransformerDecoder优化与多尺度特征的实例分割

原创

已于 2023-03-14 09:10:26 修改 · 2.5k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2023-03-13 21:33:22 首次发布

前言

MaskFormer系列论文发展的大致脉络如下图所示。

2017年Transformer的提出为图像检测、分类和分割任务提供了新思路。

2020年DETR将Transformer引入到目标检测领域，提出了Query Based的端到端目标检测算法，去除了NMS / anchor等人工先验，把目标检测看作一个集合预测问题。

2021年MaskFormer借鉴DETR的思路，将语义分割和实例分割的问题统一定义为mask分类问题，去除NMS / anchor等人工先验，把实例分割看作一个集合预测问题。

2021年底，mask2former的提出对maskformer进一步改进。

mask2former在maskformer的基础上主要做了3个方面的改进。

在Transformer Decoder中交换自注意力（self-attention）和交叉注意力（cross-attention）的顺序（称为“masked attention"），加速模型的收敛并提高性能
使用多尺度高分辨率特征，把pixel decoder的不同层作特征金字塔分别输入到transformer decoder的不同层中，帮助模型分割小目标 / 区域
在K个采样随机点而非全图上计算mask loss，在不影响性能的前提下，将训练内存节省了3倍，从每张图像18GB到6GB。