第四节:目标检测的算法基础课

文章介绍了目标检测的定义及其与图像分类的区别,讨论了从滑窗方法到卷积网络的改进,包括两阶段方法(如R-CNN系列)和单阶段方法(如YOLO、SSD),以及多尺度技术如FPN。此外,提到了基于Transformer的DETR和无锚框算法。文章还涵盖了评估指标如召回率和准确率,并提及了正负样本不均衡问题的解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第四节:目标检测的算法基础课

目标检测定义

给定一张图片→找到图像中关心的物体并预测类别

应用场景:

  • 图像中的人脸定位
  • 智慧城市——垃圾检测、非法占道、
  • 自动驾驶——环境感知+路径规划和控制
  • 计算机下游任务:OCR定位区域|人体姿态估计(先检测后标注关键点)

图像分类VS目标检测

  • 不同:前者是图像尺寸的,后者数量种类和存在的位置都不完全相同
  • 相同:需要网络理解

检测方法

最简单的方法→滑窗

  1. 设定一个窗口,
  2. 窗口遍历图像中的所有位置,窗口内调用分类算法
  3. 为了检测不同大小,形状的物体,可以使用不同大小不同长宽比的框来检测

缺点:这样的效率很低,计算成本高

改进思路1:使用启发性算法替换暴力遍历,但依赖外部算法,实现复杂

改进思路2:使用卷积来实现密集预测任务

【消除滑窗中重复部分的基本思路】

用卷积一次性计算所有特征,再取出特征图中对应位置的裁剪块,抠出来送到后面的全链接层

进一步,不同特征的感受野自然的形成一系列等距离分布的窗,在特征图使用1x1卷积进行密集预测,形成概率图

密集预测是隐式滑窗,但效率远高于滑窗

目标检测的基本范式

  • 两阶段方法:以某种方式产生窗,再基于窗口内的特征进行预测
  • 单阶段方法:在特征图上基于单点特征实现密集预测

目标检测演进

两阶段方法:R-CNN, Fast RCNN, Faster RCNN,

单阶段方法:yolo,ssd

多尺度技术→FPN(特征金字塔)

Transformer检测方法:DETR

基础知识

  1. 框(Bounding Box)
  2. 区域
  3. 感兴趣区域(ROL)
  4. 锚框(Anchor)在图像中预设一次额基准框
  5. 交并比(IoU):交集和并集之比
  6. 置信度(confidence):简单的可以认为,模型中分类部分认为的类别概率
  7. 非极大值抑制(NMS):滑窗短发对同一个物体会给出多个检测框,我们只需要保留置信度最高的框,即把不是极大值的框丢掉→密集预测下的后处理
  8. 边界框回归:一般得到的框不是精准的最小框→多任务学习
  9. 边界框编码:作为回归的优化操作

基于Anchor的改进

在原图上设置不同尺寸的基准框,基于特征独立预测每个锚框中是否包含有物体

  1. 生成不同尺寸的锚框
  2. 同一位置生成多个框包含不同的物体

正负样本不均衡

直接使用分类损失会因样本不均衡而失效,RetinaNet解决单阶段算法中的损失函数的问题

无锚框算法

不基于框训练,FCOS,CenterNet,将检测问题定义为以中心点表示的物体

DeTR

将问题定义为:特征序列→框序列的问题,用Transformer架构解决

目标检测的评估方法

  • 召回率:衡量该检测到的地方是否检测到了,值越高,漏检越少
  • 准确率:衡量检测到的地方预测结果是不是正确的

通常将检测框按照阈值降序排列,仅仅输出置信度较高的若干框

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值