YOLO学习

最新推荐文章于 2024-10-22 21:45:56 发布

原创最新推荐文章于 2024-10-22 21:45:56 发布 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

2 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

YOLOv1网络结构

YOLOv1（You Only Look Once v1）是一种经典的One-Stage目标检测模型，由Joseph Redmon等人在2016年提出。YOLOv1的核心思想是将目标检测视为单次回归问题：给定一张输入图片，网络直接预测目标的类别和边界框的位置。

YOLOv1 的主干网络借鉴了经典的GoogLeNet（Inception v1）结构，但为了减少复杂度，去除了Inception模块，变成了一种精简版的卷积神经网络。

层数	层类型	滤波器数量	滤波器大小/步长	输入大小	输出大小
1	卷积	64	7 × 7 / 2	448 × 448 × 3	224 × 224 × 64
2	最大池化	-	2 × 2 / 2	224 × 224 × 64	112 × 112 × 64
3	卷积	192	3 × 3 / 1	112 × 112 × 64	112 × 112 × 192
4	最大池化	-	2 × 2 / 2	112 × 112 × 192	56 × 56 × 192
5-8	卷积	128 / 256 / 256 / 512	3 × 3 / 1	56 × 56 × 192	56 × 56 × 512
9	最大池化	-	2 × 2 / 2	56 × 56 × 512	28 × 28 × 512
10-16	卷积	多通道 (512-1024)	3 × 3 / 1	28 × 28 × 512	14 × 14 × 1024
17	最大池化	-	2 × 2 / 2	14 × 14 × 1024	7 × 7 × 1024
18-20	卷积	1024	3 × 3 / 1	7 × 7 × 1024	7 × 7 × 1024
21	全连接	-	-	7 × 7 × 1024	4096
22	全连接	-	-	4096	1470 (7×7×30)

图片网格划分：YOLOv1将输入图片划分为S × S个网格（S = 7）。
每个网格：
- 预测2个边界框（每个框包含5个参数：(x, y, w, h, confidence)）。
- 预测C个类别的概率分布。

输出向量大小：

对于一个输入图片：网络会输出一个大小为(S × S × (B * 5 + C))的张量，其中：
- S：7（即7 × 7网格）
- B：2（每个网格预测2个边界框）
- C：20（COCO数据集的20个类别）

最终输出张量大小：7 × 7 × 30。

YOLOv1使用一个多任务损失函数，包括三部分：

损失公式：
在这里插入图片描述

YOLOv1的创新在于将目标检测简化为一个单阶段的回归任务，极大地提升了检测速度。然而，由于它的结构设计存在局限性（如对小目标的检测性能较差），后续版本（YOLOv2、YOLOv3等）对其做了很多改进，比如更好的网络结构和损失函数设计。

您可能感兴趣的与本文相关的镜像

Yolo-v8.3

Yolo

YOLO（You Only Look Once）是一种流行的物体检测和图像分割模型，由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出，因其高速和高精度而广受欢迎