MIL+seg [CVPR15]

最新推荐文章于 2025-08-24 11:52:21 发布

原创最新推荐文章于 2025-08-24 11:52:21 发布 · 312 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#weakly supervised #sementic segmentation

CV 专栏收录该内容

8 篇文章

订阅专栏

本文介绍了基于DCNN解决W3S问题的MIL+seg方法。输入图像经DCNN得到特征图，为与image - level标签向量计算loss，提出LSE算法平衡局部与整体。训练后得到的向量可用于合成最终输出，经ILP优化后，再用传统算法优化分割结果，减少误判。

MIL+seg

paper: From Image-level to Pixel-level Labeling with Convolutional Networks

这是15年CVPR的文章，个人感觉架构和CAM有异曲同工之处。
与EM-adapt一样都是基于DCNN解决W3S问题。同样输入图像经过DCNN得到了 $L$ 张(原图12倍下采样)的特征图。由于我们的label $z$ 是image-level，可以视作一个向量，对应存在 $x$ 的类别，其值为1，不存在的类别，其值为 $0$ 。

From freature maps to vector

由于DCNN输出的是特征图，所以要想办法将一张图映射到一个点，以方便与 $z$ 向量计算loss。常用的将feature map映射为点的做法可以是全局平均池化或者全局极大池化。但是都存在问题：

平均池化对于feature map各个位置的值都赋予相同的权重，即也考虑了那些不属于该类别的点，这将引入噪声。
极大池化只取feature map最大值的点作为输出，这将导致feature map倾向于在该类别最具辨识度处的点输出较大值。(实验表明极大池化不好训练，因为一开始各个点的值都很接近)

为了解决平衡极大池化的过分局部考虑以及平均池化的过多噪声，作者提出了LSE(Log-Sum-Exp)算法以参数化这一映射。对于第 $k$ 张 $h * w$ 大小的feature map，我们将其映射至点 $s^k$ ，参数 $r$ ， $s_{i,j}^k$ 表示该feature map在位置 $(i, j)$ 上的值。
$sk=1rlog⁡[1h∗w∑i,jexp(rsi,jk)]s^k=\frac{1}{r}\log[\frac {1}{h*w}\sum_{i,j}exp(rs_{i,j}^k)]$
${r→0+sk→1rlog⁡[1h∗w∑i,jersi,jk]r→∞sk→1rlog⁡[1h∗wermax⁡i,j(si,jk)]\begin{cases}r\to 0^+ & s^k\to \frac{1}{r}\log [\frac{1}{h*w}\sum_{i,j}e^rs_{i,j}^k ]\\ r\to \infty & s^k\to \frac{1}{r}\log[\frac{1}{h*w}e^r\max_{i,j}(s_{i,j}^k)]\end{cases}$
所以可以通过调整 $r$ 的大小以调整映射考虑局部和整体之间平衡。之后就是和分类模型一样的训练了。
baseline

ILP（Image-Level Prior）

训练好后得到了 $L$ 张feature maps以及分别LSE后得到的一个 $L$ 维向量。对于这个向量，我们可以理解为是对输入图像 $x$ 是否存在类别的概率。比如如果LSE后的 $v e c t o r [1] = 0.7$ ，而 $c l a s s [1]$ 对应的是猫，则意味着原图中存在猫的概率为 $0.7$ 。
那么这个判定结果(image-level)是有助于我们将 $L$ 张feature maps合成最终输出的。常见的合成方法是直接argmax，即对应各个位置 $(i, j)$ ，将最大值所在的feature map对应的类别作为该点的判定结果。有了ILP，我们就可以先将每张feature map上每个点 $p_{i,j(k|I)}$ 乘上该类别的判别概率 $p (k ∣ I)$ ，得到优化后的feature map，之后在argmax操作得到输出。