Yolo原理
yolo v1
Yolo是一种目标检测算法,目标检测的任务是从图片中找出物体并给出其类别和位置,对于单张图片,输出为图片中包含的N个物体的每个物体的中心位置(x,y)、宽(w)、高(h)以及其类别。
Yolo的预测基于整个图片,一次性输出所有检测到的目标信号,包括其类别和位置。Yolo首先将图片分割为sxs个相同大小的grid:

Yolo只要求grid中识别的物体的中心必须在这个grid内(具体来说,若某个目标的中心点位于一个grid内,该grid输出该目标类别的概率为1,所有其他grid对该目标预测概率设置为0)。实现方法:让sxs个框每个都预测出B个boungding box,bounding box有5个量,分别为物体的x,y,h,w和预测的置信度;每个grid预测B个bounding box和物体类别,类别使用one-hot表示。
尽管一个grid中有多个bounding box,但是只能识别出一个物体,因此每个grid需要预测物体的类别,但是bouding box不需要;因此对于sxs个grid,每个grid中包含B个bounding box,分类器分出C种不同物体,ground truth长度为sxsx(Bx5+C),boundingbox显示如下:

图中,bounding box的粗细程度是与置信度的大小成正比。bouding box用于锁定物体的位置,需要输出x,y,h,w四个关于位置的值,若输出的位置坐标是任意的正实数,容易导致模型在不同大小的物体上的泛化能力有较大差异。

本文介绍了YOLO系列(Yolo v1、v2和v3)的目标检测算法原理,涉及网格划分、BBox预测、类别预测、Anchorbox应用、多尺度输入和特征融合等关键点,详细解析了损失函数和改进策略。
最低0.47元/天 解锁文章
24万+

被折叠的 条评论
为什么被折叠?



