k-means Mask Transformer:高效图像分割新方案
1. 图像分割方法概述
在图像分割领域,掩码变换器方法(Mask Transformer)展现出了显著优势,如基于注意力机制、不确定性监督等方法,通常优于基于边界框的方法。基于边界框的方法会将全景分割分解为多个替代任务,如为每个检测到的物体边界框预测掩码,然后通过合并模块融合实例段和语义段。此外,掩码变换器在视频分割问题上也取得了巨大成功。
传统图像分割方法通常将图像强度聚类为一组掩码或超像素,但难以捕捉高级语义。现代基于聚类的方法则在语义段上操作,将“事物”像素分组为实例段,采用的表示方式包括实例中心回归、分水岭变换、霍夫投票或像素亲和性等。
近期有研究探讨了掩码变换器和聚类算法之间的相似性,但仅将聚类更新作为交叉注意力中的补充项。而现在,我们进一步发现了掩码变换器和 k-means 聚类算法之间的潜在相似性,从而提出了简单而有效的 k-means 掩码变换器(kMaX-DeepLab)。
2. 掩码变换器分割框架
2.1 问题描述
全景分割旨在将图像 $I \in R^{H×W ×3}$ 分割为一组不重叠的掩码,并赋予相关的语义标签:
${y_i} {i=1}^{K} = {(m_i, c_i)} {i=1}^{K}$
其中,$K$ 个真实掩码 $m_i \in {0, 1}^{H×W}$ 彼此不重叠,即 $\sum_{i=1}^{K} m_i \leq 1_{H×W}$,$c_i$ 表示掩码 $m_i$ 的真实类别标签。
从 DETR 和 MaX-DeepLab 开始,全景分割
超级会员免费看
订阅专栏 解锁全文
668

被折叠的 条评论
为什么被折叠?



