论文解读之mask2former

最新推荐文章于 2025-04-21 17:41:39 发布

原创最新推荐文章于 2025-04-21 17:41:39 发布

· 2.3k 阅读

23 ·

版权

文章标签：

#图像分割

跟无神读视觉论文专栏收录该内容

8 篇文章

订阅专栏

今天主要介绍图像分割的网络——mask2former

一、简介

这是一个能够执行三大分割通用任务（语义、实例、全景）的网络

第一次在三大任务上胜过每个任务的专用分割SOTA模型

二、模型架构

其模型的主要架构包括Backbone（试验了SwinTransformer、Resnet，我觉得随着现在的发展也可以换成视觉基础模型）进行特征提取、Pixel Decoder将Backbone提取到的低维特征逐渐上采样以产生成像素级别的embedding，并且将其产生的每个尺度的embedding，喂给Transformer Decoder，Transformer Decoder结合可学习查询以及像素维度的Pixel Decoder的embedding，产生分类以及mask的结果

同时，还替换了Transformer Decoder中的交叉注意力操作，将其进行了一些改变，变成了masked attention

三、创新点详解

mask2former的架构属于掩码分类架构，通过预测N个二进制掩码，和N个对应的类别标签，将像素分组成N个分割。

图中的通道维数的目标查询特征的灵感来自DETR——图像中的每个分割可以被表示成一个C维度的特征向量query features，目标查询。这个query features被零初始化后作为cross attention中的q输入到transformer decoder中，并且与可学习的位置编码相关联，并且也直接被监督学习(被mask loss，见损失函数的第一部分)。

一个目标查询包括两部分：目标查询特征和目标查询位置编码，目标查询特征输入到Transformer decoder作为其中的Q参与注意力操作，而目标查询位置编码则在计算注意力时加入。二者都是可学习的