深度学习 -- YOLO 算法流程详解

最新推荐文章于 2025-04-23 20:00:00 发布

QW_zhang

最新推荐文章于 2025-04-23 20:00:00 发布

阅读量2.4w

点赞数 11

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_39749553/article/details/88077351

版权

YOLO（You Only Look Once）是一种目标检测算法，旨在解决速度与准确性之间的平衡问题。该算法通过图像分割，使用全卷积网络进行预测，并采用极大值抑制进行筛选。每个网格预测两个边界框和置信度，以及类别概率。网络结构包括预训练的全卷积网络和额外的卷积层，最后的损失函数由坐标偏差、置信度偏差和预测概率偏差组成。训练和预测过程中，图像会被分成S×S的网格，每个网格产生S×S×(B∗5+C)个向量，用于描述边界框和类别信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

YOLO同样是经典论文，后续很多论文以此为基础，例如YOLO9000、YOLOv3等，如果有写的不对、有问题或者看不懂的地方，还望指正。如果有了新的理解，我会持续更新。

文章2016年发表，当时的视觉检测模型有两个问题，一个是速度快但是准确率差，另一种是准确率高但是速度很慢（faster rcnn 当时只有 3 - 5 FPS）。这类，无论在学术界还是工程界，都有很大的改进空间。作者为此提出了YOLO。

不说没用的，还是主要看目标检测的部分和YOLO本身的特点。

首先看YOLO的工作流程：

上图是原文中的，工作流程分成三个步骤：

缩放图像
将图像过全卷积神经网络
利用极大值抑制（NMS）进行筛选

然后来看算法的具体流程。

一、图像分割

在YOLO中，一张输入图像首先被分成了 S × S 个均等大小的栅格，每一个格子都称作一个 grid cell。

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。