Localization and Object Detection

本文详细介绍了物体检测中的定位方法,包括将定位视为回归问题、滑动窗口策略,以及Selective Search、IOU、NMS等关键步骤。重点探讨了R-CNN、fast R-CNN、faster R-CNN的发展,最后提到了实时检测系统YOLO的优越性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Localization

思路1:看作回归问题

首先考虑单个物体的检测,对单个物体的分类来说,已经很清楚了,在网络的最后一层加上softmax层或者multi-svm即可。对于检测问题,我们需要获得矩形边框的位置,一个简单的思路是将这个问题看作回归问题(x, y, w, h),所以很简单将分类问题的最终一层换为regression即可。
其基本思路是:
(1)训练一个分类网络(Alex net, VGG net等)
(2)在网络的最后一层附加上一个regression层
(3)用SGD和L2 loss训练regression层的参数
(4)在测试阶段同时得到物体所属的类别以及box的4个参数
而对于多个物体的检测也是类似,只是regression层输出的个数为K*4

思路2:滑动窗口

比较有名的是overfeat
这里写图片描述
将全连接层换为卷积层,更加有效

Object Detection

物体检测的难点在于不清楚图片中物体的个数,如果物体个数很多,利用localization的方法无疑是不可行的。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值