Rich feature hierarchies for accurate object detection and semantic segmentation

本文深入探讨了《Rich feature hierarchies for accurate object detection and semantic segmentation》一文的核心思想与创新点,包括利用CNN获取自下而上的region特征进行目标定位与分割,通过带监督的预训练与针对性训练提高模型性能,以及随机采样生成训练样本的方法。文章详细介绍了区域proposals的提取、区域大小调整、CNN特征提取、目标定位与检测过程,并对比了线性SVM与softmax在最后分类阶段的表现,最终使用非最大抑制与bounding box regression优化检测结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Rich feature hierarchies for accurate object detection and semantic segmentation》文章总结

一、文章的整体框架如下:


二、 文章的亮点:

1)使用了CNN来获取自下而上的region特征,以此来定位和分割目标。
2)由于带标签数据比较少,文章使用了带监督的pre-training(此处采用的是ImageNet2012来进行网络预训练或者是直接利用文章中的参数来初始化自己的网络),随后又使用domain-specific fine-tuning来进行针对性的训练,取得了一定的效果提升。

三、 提取区域proposals

文中使用的方式是,采用随机采样的方法:即每幅图像随机采取2000个大小不一的regions,来作为训练样本。其中正负样本的定义是根据regions和ground truth之间的IoU的大小,采取一个阈值来区分的。

四、 区域size转化

得到了regions之后,要把regions转化为ImageNet CNN 所需要的size,文中提供了几种方法,具体参见论文。

五、 CNN特征提取

文中使用了NIPs2012文章中的网络来获取特征,网络包含5个卷积层,两个全连接层。
使用了supervised pre-training来获取网络的初始参数;使用domain-specific fine-tuning 来获取更加适合特定问题的网络参数,并且以此来获得region的特征。

六、 目标定位与检测

文章使用的是Linear SVM进行最后的分类或者说是目标检测,为什么不适用softmax呢?文章中说softmax效果没有linear SVM好,所以就是用linear SVM!
文章最后使用了非最大值抑制方法来获取最后的目标检测结果。同时文章中还引入了bounding box regression 来获取位置和大小更加合适的objectness,可以借鉴。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值