目标检测(Object Detection) YOLO

最新推荐文章于 2025-06-11 09:05:25 发布

MestuleFire

最新推荐文章于 2025-06-11 09:05:25 发布

阅读量715

点赞数

CC 4.0 BY-SA版权

分类专栏：论文笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/MestuleFire/article/details/88121800

YOLO（You Only Look Once）是一种实时目标检测系统，通过一次CNN运算完成预测，实现快速且统一的端到端检测。核心是将图像分为网格，每个网格预测固定数量的边界框和置信度，结合边框回归改进定位精度。训练时采用损失函数调整预测框和真实框的匹配。尽管YOLO在处理相邻近或小尺寸物体时表现不佳，但其速度和整体框架使其在实时应用中颇具价值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

YOLO - You Only Look Once: Unified, Real-Time Object Detection

YOLO的核心思想就是利用整张图作为网络的输入，直接在输出层回归bounding box的位置和bounding box所属的类别。
You Only Look Once说的是只需要一次CNN运算，Unified指的是这是一个统一的框架，提供end-to-end的预测，而Real-Time体现是Yolo算法速度快。

1 边框回归 (Bounding Box Regression)

在这里插入图片描述
这是除了R-CNN以外很多论文都只是简略阐述的一部分内容，所以参考几篇回答以后在这里总结边框回归的具体概念。

过程简述
边框回归的目的：对红色的框进行微调，使得经过微调后的窗口跟Ground Truth更接近，这样定位会更准确。Bounding-box regression 就是用来微调这个窗口的一种思路。

一个bounding box可以用四维向量 $(x, y, w, h)$ 来表示，Ground Truth也可以做出同样表示，那么便可光回顾的总体目标作出粗略描述。

$P_x,P_y,P_w,P_h ) \tag{1.1}$
$P_x,P_y,P_w,P_h ) \approx G(P_x,P_y,P_w,P_h) \tag{1.2}$

那么经过何种变换才能从图 2 中的窗口 $P$ 变为窗口 $G$ 呢？比较简单的思路就是平移结合尺度放缩。

先做平移 $Δx,Δy)(Δx,Δy)， Δx=P_wd_x(P),Δy=P_hd_y(P)Δx=P_wd_x(P),Δy=P_hd_y(P)$

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。