YOLOv1

YOLOv1是一种2016年提出的单阶段目标检测网络,以其高速度(每秒45帧)和端到端的卷积架构著名。该网络将图像分割成7x7网格,每个网格预测2个边界框和类别概率。损失函数包括坐标、置信度和类别预测损失。虽然YOLO在实时检测中表现出色,但对小物体和紧密相邻物体的检测效果不佳,且受定位误差影响较大。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介

2016年,Joseph Redmon、Santosh Divvala、Ross Girshick等人提出了一种单阶段(one-stage)的目标检测网络。它的检测速度非常快,每秒可以处理45帧图片,能够轻松地实时运行。由于其速度之快和其使用的特殊方法,作者将其取名为:You Only Look Once(也就是我们常说的YOLO的全称)。

YOLO 的核心思想就是把目标检测转变成一个回归问题,利用整张图作为网络的输入,仅仅经过一个神经网络,得到bounding box(边界框) 的位置及其所属的类别。
论文下载:http://arxiv.org/abs/1506.02640

代码下载:https://github.com/pjreddie/darknet

网络结构

模型框架
在这里插入图片描述

  • 采用了一个基于卷积神经网络的端到端结构,其中包括24个卷积层和2个全连接层,共计约50万个参数。
  • 网络输入:448×448×3的彩色图片。
  • 中间层:由若干卷积层和最大池化层组成,用于提取图片的抽象特征。
  • 全连接层:由两个全连接层组成,用来预测目标的位置和类别概率值。
  • 网络输出:7×7×30的预测结果。

检测策略

在这里插入图片描述

  • 将一幅图像分成 S×S个网格(grid cell),如果某个 object 的中心落在这个网格中,则这个网格就负责预测这个object。

  • 每个网格要预测 B 个bounding box,每个 bounding box 要预测 (x, y, w, h) 和 confidence 共5个值。

  • 每个网格还要预测一个类别信息,记为 C 个类。

  • S×S 个网格,每个网格要预测 B个bounding box ,还要预测 C 个类。网络输出就是一个 S × S × (5×B+C) 的张量。

具体来说:YOLOv1把一张图片划分为了7×7个网格,并且每个网格预测2个Box(Box1和Box2),20个类别。所以实际上,S=7,B=2,C=20。那么网络输出的shape也就是:7×7×30。

目标损失函数

在这里插入图片描述

  • 损失由三部分组成,分别是:坐标预测损失、置信度预测损失、类别预测损失。

坐标预测

  • 坐标预测损失

在这里插入图片描述

  • 置信度预测损失
    在这里插入图片描述
  • 类别损失

学习率策略

在这里插入图片描述
我们的学习速率安排如下:对于第一阶段,我们将学习速率从10^-3 慢慢提高到10 ^-2。如果我们以一个高的学习速率开始,我们的模型往往会由于不稳定的梯度而发散。我们继续以10 ^- 2训练75个epochs,然后以10 ^- 3训练30个epochs,最后以10 ^- 4训练30个epochs。

数据处理和防过拟合

在这里插入图片描述
为了避免过拟合,我们使用dropout和广泛的数据增强。在第一个连通层之后的一个比率为0. 5的dropout层阻止了层间的相互适应。对于数据增强,我们引入了高达原始图像尺寸20%的随机缩放和平移。我们还在HSV颜色空间中随机调整图像的曝光度和饱和度,最高为1.5倍。

性能表现

1. 优点

  • 1.YOLO检测速度非常快。标准版本的YOLO可以每秒处理 45张图像;YOLO的极速版本每秒可以处理150帧图像。 这就意味着 YOLO 可以以小于 25 毫秒延迟,实时地处理视频。对于欠实时系统,在准确率保证的情况下,YOLO速度快于其他方法。
  • 2、YOLO 实时检测的平均精度是其他实时监测系统的两倍。
  • 3、迁移能力强,能运用到其他的新的领域(比如艺术品目标检测)。

2. 局限

  • YOLO对相互靠近的物体,以及很小的群体检测效果不好,这是因为一个网格只预测了2个框,并且都只属于同一类。
  • 由于损失函数的问题,定位误差是影响检测效果的主要原因,尤其是大小物体的处理上,还有待加强。(因为对于小的bounding boxes,small error影响更大)
  • YOLO对不常见的角度的目标泛化性能偏弱。

论文实验图

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值