一、这篇论文解决什么问题
原始问题:Weakly-supervised object localization,研究发现,图像分类任务上训练的CNN,可以直接用于物体定位
两个子问题:
- CNN具有这种能力的原因是什么
- 如何改进,可以更好地解决Weakly-supervised object localization
本文研究以上问题的核心手段:利用GAP(Global Average Pooling)生成CAM(Class Activation Mapping)
二、相关工作及局限性
Weakly-supervised object localization
遮挡法、用很多重叠的图块多次预测:不是end-to-end的模型,需要多次前向计算
GMP(Global Max Pooling):找到边缘的点而不是区域内的点,区域内的点无论怎么变化都不会起作用,而GAP不同,关键区域内的点都有影响
Visualizing CNNs
有的工作只分析了卷积层,并没有分析全连接层
有的工作分析了语义编码,但并没有分析具体不同特征的重要程度
三、CAM技术
CNN具有这种能力的原因是什么:通过CAM技术找出影响图像分类的关键区域
如何利用GAP进行预测(计算各类别的分数):

这篇论文探讨了弱监督物体定位问题,研究了CNN为何能在图像分类任务中实现定位,并提出使用Global Average Pooling(GAP)生成Class Activation Mapping(CAM),以识别关键区域。实验表明,GAP在图像定位任务上优于Global Max Pooling,且通过CAM技术可以改进图像定位能力,同时揭示了不同特征通道在分类中的重要性。
最低0.47元/天 解锁文章
3791





