一种通用的图像分割模型

最新推荐文章于 2025-09-19 16:16:39 发布

原创

最新推荐文章于 2025-09-19 16:16:39 发布 · 835 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#python #人工智能

✨✨ 欢迎大家来访Srlua的博文（づ￣3￣）づ╭❤～✨✨

🌟🌟 欢迎各位亲爱的读者，感谢你们抽出宝贵的时间来阅读我的文章。

我是Srlua小谢，在这里我会分享我的知识和经验。🎥

希望在这里，我们能一起探索IT世界的奥妙，提升我们的技能。🔮

记得先点赞👍后阅读哦~ 👏👏

📘📚 所属专栏：传知代码论文复现

欢迎访问我的主页：Srlua小谢获取更多信息和资源。✨✨🌙🌙

概述

模型结构

掩码分类准备

带有掩码机制的Transformer解码器

本文所有资源均可在该地址处获取。

概述

图像分割研究像素分组问题，对像素进行分组的不同语义产生了不同类型的分割任务，例如全景分割、实例分割或语义分割。虽然这些任务中只有语义不同，但目前的研究侧重于为每个任务设计专门的架构。Mask2Former是一个能够处理图像多种分割任务（全景分割、实例分割、语义分割）的新框架。它的关键组件是掩码注意力机制，通过约束预测掩码区域内的交叉注意来提取局部特征。Mask2Former将研究工作减少了至少三倍，且在四个流行的数据集上大大优于最好的专业架构。

模型结构

Mask2Former的结构和MaskFormer类似，由一个主干网络，一个像素解码器，一个Transformer解码器组成。Mask2Former提出了一个新的Transformer解码器，该解码器使用掩码注意力机制代替传统的交叉注意力机制。为了处理尺寸较小的物体，Mask2Former每次将来自于像素解码器的多尺度特征的一个尺度馈送到Transformer解码器层。除此之外Mask2Former交换了自注意力和交叉注意力（掩码注意力）的顺序，使查询特征可学习，并去除dropout层结构式计算更有效。

掩码分类准备

掩码分类架构通过预测N个二进制掩码，以及N个相应的类别标签，将像素分成N个块。掩码分类通过将不同的语义（类别或实例）分配给不同的片段来解决任何分割任务。然而，为每个片段找到好的语义表示具有挑战性，例如Mask RCNN使用边界框作为表示，这限制了它在语义分割中的应用。受DETR的启发，图像中的每个片段可以表示为C维特征向量（对象查询），由Transformer解码器处理，该解码器使用集合预测目标进行训练。
一个简单的元架构由三个组件组成：

一个主干网络：从图像中提取低分辨率特征。
一个像素解码器：从主干的输出逐步对低分辨率特征进行上采样，以生成高分辨率逐像素嵌入。
一个Transformer解码器，利用对象查询和图像特征进行交互，以丰富对象查询中包含的语义信息。
二值掩码预测：从逐像素嵌入的对象查询解码出最终的二进制掩码预测。

带有掩码机制的Transformer解码器

Transformer解码器的关键组件包括一个掩码注意算子，它通过将每个查询的交叉注意力限制在其预测掩码的前景区域，而不是关注完整的特征图来提取局部特征。为了处理小物体，Mask2Former提出了一种有效地多尺度策略来利用高分辨率特征。它以循环的方式将像素解码器特征金字塔的连续特征映射馈送到连续的Transformer解码器层。Mask2Former的改进如下：

掩码注意力机制
最近的研究表明，基于Transformer的模型收敛缓慢是由于交叉注意力层中关注全局上下文信息，因此交叉注意力需要许多训练轮才能学会关注局部对象区域。Mask2Former假设局部特征足以更新查询特征，且全局上下文信息可以通过自我注意力来收集。为此，Mask2Former提出了掩码注意，这是一种交叉注意的变体，它只关注每个查询预测掩码的前景区域。Mask2Former的掩码注意力机制如下计算：

Xl=softmax(Ml−1+QlKlT)Vl+Xl−1Xl=softmax(Ml−1+QlKlT)Vl+Xl−1

在这里ll是层索引，Xl∈RN×CXl∈RN×C表明在第ll层，NN个CC维的查询向量。Ql=fQ(Xl−1)∈RN×CQl=fQ(Xl−1)∈RN×C。Kl,Vl∈RHlWl×CKl,Vl∈RHlWl×C分别是经过fK(⋅)fK(⋅)和fV(⋅)fV(⋅)变化下的图像特征。fQ、fKfQ、fK和fVfV是线性变换，(x,y)(x,y)处特征的注意掩码Ml−1Ml−1为：

Ml−1(x,y)={0 if Ml−1(x,y)=1−∞ otherwiseMl−1(x,y)={0−∞ if Ml−1(x,y)=1 otherwise

此时，Ml−1∈{0,1}N×HlWlMl−1∈{0,1}N×HlWl是第l−1l−1个Transformer解码器层大小经过调整后的掩码预测的二进制输出。它将大小调整为KlKl相同的分辨率。M0M0是从X0X0（将查询特征输入Transformer解码器之前）获得的二进制掩码预测。

高分辨率特征
高分辨率提高了模型的性能，特别是小物体的准确率，但是这对计算要求很高。因此，Mask2Former提出了一种有效的多尺度策略，在控制计算量增加的