YOLO : You Only Look Once

最新推荐文章于 2025-05-03 00:19:25 发布

原创最新推荐文章于 2025-05-03 00:19:25 发布 · 255 阅读

0 ·

CC 4.0 BY-SA版权

目标识别专栏收录该内容

3 篇文章

订阅专栏

本文详细介绍YOLOv1至YOLOv3的发展历程和技术特点。包括一步到位的目标检测思想、网络结构改进、损失函数设计等内容，并重点讲解YOLOv2引入的Batch Normalization、High Resolution Classifier等增强技术。

YOLO

迄今为止已经有三个版本，YOLOv1，YOLOv2, YOLOv3

YOLOv1

CVPR2016.5。经典文章，目标识别速度贼快，但定位有一定误差。对比R-CNN系列算法，YOLO是一步到位，同时给出位置信息和类别信息。

概述

将图片resize固定大小，分成s * s 个栅格（grid cell）；滑动窗口滑动每一个栅格，对每一个栅格生成2个bounding box,每个bounding box包含4个坐标信息和一个confidence( $Pr(Object)*IOU_{pred}^{truth}$ ),对于需要预测C个条件类别概率 $Pr(Classi|Object)$ ,最后 $Pr = Pr(Classi|Object)*Pr(Object)*IOU_{pred}^{truth}$ ；总共2*5+20 = 30维向量。综上每一栅格输出30维向量信息，且一个栅格最多只能预测一个物体，然后进行非极大值抑制（NMS），最后取大于阈值的检测信息。

网络架构

这里写图片描述

损失函数

λ c o o r d \sum i = 0 S 2 \sum j = 0 1 o b j i j [(x i - x^i) 2 + (y i - y^i) 2]

$\lambda {coord}\sum _{i = 0}^{S^2}\sum _{j=0}1_{ij}^{obj}[(x_i- \hat x_i)^2+(y_i-\hat y_i)^2]$

+ λ c o o r d \sum i = 0 S 2 \sum j = 0 1 o b j i j [(w i - - \sqrt - w^i - - \sqrt) 2 + (h i - - \sqrt - h^i - - \sqrt) 2]

$+\lambda {coord}\sum _{i = 0}^{S^2}\sum _{j=0}1_{ij}^{obj}[(\sqrt {w_i}-\sqrt{\hat w_i})^2+(\sqrt {h_i}-\sqrt{\hat h_i})^2]$

+ \sum i = 0 S 2 \sum j = 0 1 o b j i j (C i - C^i) 2

$+\sum _{i = 0}^{S^2}\sum _{j=0}1_{ij}^{obj}(C_i-\hat C_i)^2$

+ λ n o o b j \sum i = 0 S 2 \sum j = 0 1 n o o b j i j (C i - C^i) 2

$+\lambda {noobj}\sum _{i = 0}^{S^2}\sum _{j=0}1_{ij}^{noobj}(C_i-\hat C_i)^2$

+ \sum i = 0 S 2 1 o b j i \sum c \in c l a s s e s (p i (c) - p^i (c)) 2

$+\sum _{i=0}^{S^2}1_i^{obj}\sum_{c\in classes}(p_i(c)-\hat p_i(c))^2$

λcoord=5,λnoobj=0.5 λ c o o r d = 5 , λ n o o b j = 0.5 $\lambda_{coord}=5,\lambda_{noobj}=0.5$

1objij 1 i j o b j $1_{ij}^{obj}$ 指对应栅格中有物体中心，且负责该物体的bounding box(如何判断哪个bounding box负责该栅格：confidence大的)
C表示

confidence=Pr(Object)∗IOUtruthpred c o n f i d e n c e = P r ( O b j e c t ) ∗ I O U p r e d t r u t h $confidence = Pr(Object)*IOU_{pred}^{truth}$

p(c)=Pr(Classi|Object)∗Pr(Object) p ( c ) = P r ( C l a s s i | O b j e c t ) ∗ P r ( O b j e c t ) $p(c) = Pr(Classi|Object) * Pr(Object)$

训练过程

先将网络的前20层用ImageNet1000类的数据集预训练（输入分辨率为224*224）
添加4层卷积和2层全连接层用作检测网络的训练（分辨率变为为448*448）

坐标处理

x,y表示预测bounding box 的中心与栅格左上角的相对值，且归一化为0~1。
w,h表示宽长，且值相对于整个图像的宽长，归一化为0~1。

YOLOv2

YOLO9000,Better,Faster,Stronger
CVPR2016.12
基于YOLOv1做出了一些改进，

Batch Normalization

对每一层的Z进行归一化，跟对A归一化差别不是很大，但一般都是对Z。

μ = 1 m \sum i z (i)

$\mu = \frac 1m\sum _iz^{(i)}$

σ 2 = 1 m \sum i (z i - μ) 2

$\sigma^2=\frac 1m\sum_i(z_i-\mu)^2$

z n o r m (i) = z ( i ) - μ σ 2 + ϵ - - - - - \sqrt

$z_{norm^{(i)}} = \frac{z^{(i)}-\mu}{\sqrt{\sigma^2+\epsilon}}$

z^(i) = γ \cdot z (i) n o r m + β

$\hat z^{(i)}=\gamma\cdot z_{norm}^{(i)}+\beta$
上式的

γ和β γ 和 β $\gamma 和 \beta$ 类似于其他参数可以通过梯度下降算法学得。
MAP提高了2%

High Resolution Classifier

YOLOv2的分类网络先用448*448分辨率的ImageNet输入训练迭代十次；（据我理解微调之前仍然用了224*224的分辨类率进行预训练，不然也不叫微调了。）
然后再微调检测网络。
MAP提高了4%

Anchor boxes & Dimension Clusters

学习了Faster R-CNN的RPN网络，也采用Anchor boxes的思想。查全率上升，但也引起了查准率的略微下降。Anchor boxes的宽长比和数量很明显会影响算法最终的性能，
Faster R-RCNN中Anchor boxes的宽长比和数量是人为定义的，这意味着存在一定的优化空间。YOLOv2则采用K-means对训练集中的boxes聚类，从而选取最优的数量和宽长比，距离函数定义为：