YOLO先验框的设计理解

最新推荐文章于 2024-10-11 14:33:28 发布

Lipyoung

最新推荐文章于 2024-10-11 14:33:28 发布

阅读量1.4k

点赞数 1

文章标签：深度学习 python 机器学习

本文链接：https://blog.youkuaiyun.com/lipengyu1363658871/article/details/126834094

版权

这篇博客详细解析了YOLOV5中先验框（anchor box）的设计原理。输入尺寸为[640,640]的图片经过backbone处理后得到[batch_size, 3, 20, 20, 15]的tensor，特征图大小为[20, 20]，每个点有3个先验框。每个特征点的5个channel分别包含x轴、y轴信息、缩放比例及物体存在信息。先验框的位置和大小根据这些信息进行微调，用于目标检测。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

YOLO先验框的设计理解

首先，YOLOV5的输入shape为[640, 640]，一张图片的大小。当我们通过backbone之后得到的tensor为
[batch_size, 3, 20, 20, 15]，其中[20, 20]是一个feature_map的大小，也就是[640, 640]缩小了32倍，一个特征点实际的感受野是原始图片的32*32。

其次，3为先验框的数量，也就说[20, 20]每个特征点，围绕着这个特征点都有3个先验框。

最后15是当然就是channel数量了，每一个channel都有不同的信息：
1、channel_1，[20, 20]一共400个值，每个值代表对应位置特征点的x轴信息；
2、channel_2，[20, 20]一共400个值，对应着y轴的信息。
3、channel_3，x轴方向缩放倍数；
4、channel_4，y轴方向缩放倍数；
5、channel_5，[20, 20]对应位置是否有物体，比如[2, 3]，第二行第三列这个特征点如果值为1，也就是在feature_map的第二行，第三列判断有一个物体，折回到原始图片就是[64, 96]这个点的周围有一个目标，其目标的大小还需要由channel_3和_4的锚框缩放倍数来确定。

也就说一个epoch中的一张图片，每个像素点都要计算3个先验框，来小幅度修改先验框的大小，和x、y轴方向的小浮动移动，比如特征点[1, 1]这个位置会移动到[1.5, 1.5]，他不会移动到[2, 2]这个特征点。也就说每个特征点的管辖范围都是半个特征点，对应原始图片的位置就是32+16这个位置。