论文笔记:Learning Deep Features for Discriminative Localization

这篇论文探讨了弱监督物体定位问题,研究了CNN为何能在图像分类任务中实现定位,并提出使用Global Average Pooling(GAP)生成Class Activation Mapping(CAM),以识别关键区域。实验表明,GAP在图像定位任务上优于Global Max Pooling,且通过CAM技术可以改进图像定位能力,同时揭示了不同特征通道在分类中的重要性。

一、这篇论文解决什么问题

原始问题:Weakly-supervised object localization,研究发现,图像分类任务上训练的CNN,可以直接用于物体定位

两个子问题:

  1. CNN具有这种能力的原因是什么
  2. 如何改进,可以更好地解决Weakly-supervised object localization

本文研究以上问题的核心手段:利用GAP(Global Average Pooling)生成CAM(Class Activation Mapping)

二、相关工作及局限性

Weakly-supervised object localization

遮挡法、用很多重叠的图块多次预测:不是end-to-end的模型,需要多次前向计算

GMP(Global Max Pooling):找到边缘的点而不是区域内的点,区域内的点无论怎么变化都不会起作用,而GAP不同,关键区域内的点都有影响

Visualizing CNNs

有的工作只分析了卷积层,并没有分析全连接层

有的工作分析了语义编码,但并没有分析具体不同特征的重要程度

三、CAM技术

CNN具有这种能力的原因是什么:通过CAM技术找出影响图像分类的关键区域

如何利用GAP进行预测(计算各类别的分数):

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值