深度学习基础 - 对象检测(CNN+滑窗+YOLO)

本文探讨深度学习在自动驾驶场景中的对象检测,解析滑窗法与CNN结合使用的方式,以及YOLO(You Only Look Once)模型的工作原理,包括边框预测和非最大抑制策略。通过实验展示,预训练的YOLO模型能实现较好的检测效果,并讨论了通过迁移学习优化模型的可能性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文以自动驾驶场景下的对象检测(Object Detection)为研究对象,学习理解滑窗卷积和YOLO等内容。

exp_1

1.对象检测

对象检测(Object Detection)的目的是”识别对象并给出其在图中的确切位置”,其内容可解构为三部分:

  1. 识别某个对象(Classification);
  2. 给出对象在图中的位置(Localization);
  3. 识别图中所有的目标及其位置(Detection)。

如下图所示,从左到右分别展示了:某个对象的识别(P(目标)=1,class=car),对象在图中的定位(给出边框bounding box–

2.滑窗+CNN

滑动窗口(Sliding Windows,简称滑窗)法是进行目标检测的主流方法。对于某输入图像,由于其对象尺度形状等因素的不确定性,导致直接套用预训练好的模型进行识别效率低下。通过设计滑窗来遍历图像,将每个窗口对应的局部图像进行检测,能有效克服尺度、位置、形变等带来的输入异构问题,提升检测效果。下图展示了某种大小的滑窗在待检测图像上滑动的过程:

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值