AdvErasing [CVPR17]

最新推荐文章于 2023-10-13 11:29:02 发布

mutou_cly

最新推荐文章于 2023-10-13 11:29:02 发布

阅读量284

点赞数

CC 4.0 BY-SA版权

分类专栏： CV 文章标签： weakly semantic semantic segmentation

本文链接：https://blog.youkuaiyun.com/mutou_cly/article/details/89891410

CV 专栏收录该内容

8 篇文章

订阅专栏

本文介绍了发表于2017年CVPR的AdvErasing方法，基于CAM后续处理。提出AE算法解决CAM激活区域问题，还提出PSL算法优化监督。AE通过训练-擦除操作，PSL作为在线算法迭代优化。测试时有严格约束，最后还使用CRF处理，PSL++经CRF优化后再训练网络。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

AdvErasing

paper: Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Approach

文章发表在2017年的CVPR上，同样的也是基于CAM进行后续处理。
作者考虑到CAM网络是通过训练辨别模型从而得到score map/heat map。所以无可避免主要的激活区域总是在最具辨识度(discriminate)的地方，如果能够解决这个问题，一定能改善CAM的效果。所以这是本文的第一部分工作，AE算法(adversarial erasing)。在此基础上，作者还提出了第二个算法PSL(Prohibitive Segmentation Learning)。

AE

作者为了完成CAM的分类网络(从feature map到点的转换使用平均池化)，使用了强监督下表现良好的DeepLab-CRF-LargeFOV模型(当然，Deeplab也是基于VGG16)。

使用 $n$ 张训练集第一次训练模型至收敛，这样训练图像 $I_i(i=1,2,...n)$ ，输出各个类别的score map/heat map，设置阈值得到图像中存在类别集合 $L$ 的判别区域 $R_{i,l}$ ， $l∈Ll\in L$ 。
更新训练集，对于图像 $I_i$ 将识别得到的所有类别 $l$ 的区域 $R_{i,l}$ 擦去，即 $Ii=Ii∖Ri,LI_i=I_i\setminus R_{i,L}$ 。擦去的方法是将这些区域的像素值设为训练集的平均像素值。
使用更新后的训练集重新训练(第二次)训练模型至收敛，重复2操作。
如法炮制，一直到图像中已经没有显著的属于类别的信息了，作者实验发现(训练-擦除)执行三次的效果最棒。

PLUS~：作者这里得到背景语义图的方式也是基于saliency。

PSL

AE能够得到不错的效果，但是会存在两个问题：

部分像素点位置的归属不确定，即前景和背景的置信度都很低，不知道该归到哪个类。
存在误判，比如识别出不存在于图像中的物体。

PSL是作者提出的在线算法。即随着训练的收敛，输出结果逐渐优化，label也会近一步的优化，从而达到更进一步的监督。
PSL个人认为和MIL-seg中的ILP一模一样…设S是经过AE后得到的识别结果，PSL思路就是将CAM中的类别置信度乘上 $S$ 中对应类别的feature map，在通过 $arg⁡max⁡\arg \max$ 合成最终的语义分割图。
具体做法如下：

设AE输出的各个类别预测结果为 $f(I,θ)f(I,\theta)$ ，合成最终的预测结果为 $S$ ，即 $S=max⁡{f(I;θ)}S=\max\{f(I;\theta)\}$ 。
设 $v\boldsymbol{v}$ 是AE/CAM中对图像中的类别置信度。
设 $S^\hat{S}$ 是 $f(I,θ)f(I,\theta)$ 加工优化在合成的预测结果。即 $S^=max⁡{[1,v]⊗f(I;θ)}\hat{S}=\max \{[1, \boldsymbol{v}] \otimes f(I ; \theta)\}$ ，即对应背景的fearure map，乘上系数1(因为一张图里肯定有背景，所以背景置信度肯定为1)，对于其他识别出的前景分割图，分别乘上对应的类别置信度。

这样PSL部分的loss为：
$min⁡θ[∑I∈I−1∑c∈Oseg∣Sc∣∑c∈Oseg⁡∑u∈Sclog⁡fu,c(I;θ)−1∑c∈Oseg∣S^c∣∑c∈Oseg∑u∈S^clog⁡fu,c(I;θ)]\min _{\theta}[ \sum_{I \in \mathcal{I}}-\frac{1}{\sum_{c \in \mathcal{O}^{s e g}}\left|S_{c}\right|} \sum_{c \in \mathcal{O} \operatorname{seg}} \sum_{u \in S_{c}} \log f_{u, c}(I ; \theta)-\frac{1}{\sum_{c \in \mathcal{O}^{s e g}}\left|\hat{S}_{c}\right|} \sum_{c \in \mathcal{O}^{s e g}} \sum_{u \in \hat{S}_{c}} \log f_{u, c}(I ; \theta)]$
对于上式的理解：
损失函数可以看作两个部分，分别是 $S$ 与 $S^\hat{S}$ 的损失估计，我们希望 $S$ 中正确预测的各个像素的置信度尽可能的高/趋紧于1，同样的，对于优化后的输出 $S^\hat{S}$ ，我们也希望对于其预测出的且确实存在该类的置信度也尽可能的高/趋紧于1。
PSL和MIL-seg的ILP的区别：
在MIL-seg中，作者是将ILP作为后场处理，而本文中作者将PSL作为一个损失函数来迭代优化，使得其融入训练中。
疑问：
所以为什么要这样设计同时优化 $S$ 和 $S^\hat{S}$ 呢？如果优化 $S$ 和 $S^\hat{S}$ 的交叉熵，使得 $S$ 趋紧于 $S^\hat{S}$ 好像也不错？毕竟SEC中把CRF的效果也直接让DCNN预测就是通过计算CRF前后的交叉熵来诱导DCNN。
test时：
测试时，作者采用更加严格的约束，对于类别置信度低于一定阈值的直接置为0，就是直接把对应类别的feature map直接删去。