《YOLO2》论文精读:7项措施和联合训练让YOLO1更好、更快、更强大

YOLO9000:先进实时目标检测系统解析

在这里插入图片描述

  1. YOLO9000: Better, Faster, Stronger论文地址
  2. PaperwithCode在目标检测的排名
  3. GIthub仓库地址,100Kstar
  4. 《YOLO1》论文精读:第一次实现端到端的目标检测
  • YOLO1论文最新由Facebook AI发表于2016年5月,截止现在2024年10月,引用数是52854次。
  • YOLO2由华盛顿大学研究机构于2016年12月发布,截止2024年10月,引用数是23157次。

核心内容(省流版阅读这里即可)

这篇论文介绍了YOLO9000,这是一种先进的实时目标检测系统,能够检测超过9000个不同的物体类别。接下来逐步解析这篇论文的核心内容:

1. YOLO9000 的介绍

  • 目标检测系统:YOLO9000 是一种先进的实时目标检测系统,能够检测超过9000个不同的物体类别。

2. YOLOv2 的改进

  • YOLO 检测方法的改进:首先,文章介绍了对YOLO检测方法的各种改进,包括新颖的改进和借鉴先前工作的改进。
  • YOLOv2 的表现:改进后的模型称为 YOLOv2,在标准的检测任务(如 PASCAL VOC 和 COCO)上达到了最先进的水平。

3. 多尺度训练方法

  • 多尺度训练:使用了一种新的多尺度训练方法,使得同一个 YOLOv2 模型可以在不同的输入尺寸下运行,提供了速度和准确率之间的灵活权衡。
  • 性能指标
    • 在67 FPS时,YOLOv2 在 VOC 2007 数据集上获得了 76.8 mAP 的成绩。
    • 在40 FPS时,YOLOv2 在 VOC 2007 数据集上获得了 78.6 mAP 的成绩,优于当时最先进的方法如 Faster R-CNN(使用 ResNet)和 SSD,同时仍然保持较高的运行速度。

4. 联合训练方法

  • 联合训练:提出了一种联合训练方法,用于同时进行目标检测和分类的训练。
  • YOLO9000 的训练:使用这种联合训练方法,在 COCO 检测数据集和 ImageNet 分类数据集上同时训练 YOLO9000。

5. YOLO9000 的性能

  • 检测数据不足的情况:这种联合训练使得 YOLO9000 即使在某些类别没有标注的检测数据时也能做出预测。
  • 性能验证:在 ImageNet 检测任务上验证了这种方法。尽管只有44个类别的检测数据,YOLO9000 在 ImageNet 检测验证集上获得了 19.7 mAP 的成绩。
    • 在 COCO 数据集中未包含的 156 个类别上,YOLO9000 获得了 16.0 mAP 的成绩。
  • 检测范围:YOLO9000 不仅仅能够检测200个类别,它能够预测超过9000个不同的物体类别,并且仍然能在实时条件下运行。

1. YOLO1的缺陷-63.4mAP

YOLO对边界框预测施加了强大的空间约束,因为每个网格单元格只能预测两个边界框,并且只能有一个类。这个空间约束限制了我们的模型可以预测的附近物体的数量。我们的模型在预测成群出现的小物体时出现了瓶颈困境,比如鸟群,人群、牛群等。

由于我们的模型学会了从数据中预测边界框,所以模型很难或者无法检测在训练数据中没有出现过的类别对象,或者很难检测跟训练数据的检测对象长宽比不同检测对象。

我们的模型还使用了相对粗糙的特征来预测边界框,因为我们的架构从输入图像中有多个降采样层。

最后,当我们训练一个目标检测的损失函数时,我们的损失函数处理小边界框与大边界框中的损失是相同的。一个大盒子里的小错误通常是良性的,但一个小盒子里的小错误对损失有更大的影响。我们的主要错误来源是不正确的损失函数

缺陷总结为四点如下:

  1. 检测类别数不足
  2. 类别种数无法扩展
  3. 网络结构简单
  4. 损失函数不好

2. 优化措施-起点是63.4mAP

这篇论文几个单词的解释,需要达成共识:

  1. Anchor Boxes,翻译成锚点边界框,简称锚盒
  2. centroids,翻译成聚类出来的锚点边界框,简称质心
  3. Ground Truth:在机器学习中,“ground truth”指的是真实的数据标签或者是实际的结果。对于物体检测任务来说,ground truth通常包含了物体的位置(边界框坐标)以及物体的类别

相对SOTA的检测模型,YOLO存在各种缺点。YOLO与Fast R-CNN对比分析表明,YOLO产生了大量的定位错误。另外,与基于proposal-based的方法相比,YOLO的召回率相对较低。因此,我们主要关注在提高分类精度的同时提高召回率和定位准确性。

计算机视觉一般倾向于更大、更深层次的网络。更好的性能通常取决于训练更大的网络或将多个模型集成在一起。然而,对于YOLOv2,我们想要一个更准确的检测模型,并且希望模型推理速度很快。我们没有扩大网络,而是简化了网络,然后使模型更容易学习。我们从过去的工作的各种想法与我们自己的创新点相结合,以提高YOLO的表现。对结果的总结见表2。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值