提示:本文是参考李沐老师目标检测这一章,对该章边界框和锚框代码的整体梳理,具体资料连接会在文章中给出。且全部实验代码是在kaggle平台上验证过滴。
前言
李沐老师参考资料地址:link(代码参考地址). link(视屏参考地址).
这部分会使用到一张猫狗图片,现在我将其下载下来并放到我的网盘之中,提取链接以及提取码如下:
链接:https://pan.baidu.com/s/12vsj-HYPs1GKFFgJ3f8MsA
提取码:6666
一、边界框
这里我将图片上传到了kaggle平台上,如下图所示:

接下来,我们读取图片,并将对图片进行显示。
'''
注意
%matplotlib inline在pycharm中会报错,这只适用于在Juter和其类似的软件中(如kaggle上)。
若想要在pycharm中显示图片,在调用plt.imshow()函数后,调用plt.show()函数即可。
'''
%matplotlib inline
import torch
import matplotlib.pyplot as plt
from IPython import display
def set_figsize(figsize=(3.5, 2.5)):
"""Set the figure size for matplotlib.
Defined in :numref:`sec_calculus`"""
display.set_matplotlib_formats('svg')
plt.rcParams['figure.figsize'] = figsize
# 调用
set_figsize()
'''这是我的路径,大家注意一下填写自己的路径'''
img = plt.imread('../input/catdog/catdog.jpg')
plt.imshow(img);
结果如下图所示:

注意
我们看到显示图片的坐标的y轴与我们平常所学平面坐标系是不一样的,这是理解后续代码的基础之一。
接下来,查看图片的shape
img.shape
结果如下图所示:

边界框定义
在目标检测中,我们通常使用边界框来描述对象空间的位置,且边界框是矩形的。
边界框表示方法
方法1:
由左上角坐标( x 左 上 x_{左上} x左上, y 左 上 y_{左上} y左上)和右下角坐标( x 右 下 x_{右下} x右下, y 右 下 y_{右下} y右下),在显示图片的坐标系中永远有 x 右 下 x_{右下} x右下> x 左 上 x_{左上} x左上, y 右 下 y_{右下} y右下> y 左 上 y_{左上} y左上。
方法2:
知道边界框的中心坐标( x 中 心 x_{中心} x中心, y 中 心 y_{中心} y中心),以及边界框的高H和宽W。
接下来定义在两种表示方法之间进行转换的函数。
'''
方法1转换到方法2
输入参数boxes可以是长度为4的张量,也可以是形状为(n,4)的二维张量,其中n是边界框的数量。
输入参数格式为 (x_左上, y_左上, x_右下, y_右下)———>(boxes[:, 0], boxes[:, 1], boxes[:, 2], boxes[:, 3),下同
返回值格式为 (x_中心, y_中心, w, h)
'''
def box_corner_to_center(boxes):
"""从(左上,右下)转换到(中间,宽度,高度)"""
x1, y1, x2, y2 = boxes[:, 0], boxes[:, 1], boxes[:, 2], boxes[:, 3]
cx = (x1 + x2) / 2
cy = (y1 + y2) / 2
w = x2 - x1
h = y2 - y1
boxes = torch.stack((cx, cy, w, h), axis=-1)
return boxes
'''
方法2转换到方法1
输入参数格式为 (x_中心, y_中心, w, h)
返回值格式为 (x_左上, y_左上, x_右下, y_右下)
'''
def box_center_to_corner(boxes):
"""从(中间,宽度,高度)转换到(左上,右下)"""
cx, cy, w, h = boxes[:, 0], boxes[:, 1], boxes[:, 2], boxes[:, 3]
x1 = cx - 0.5 * w
y1 = cy - 0.5 * h
x2 = cx + 0.5 * w
y2 = cy + 0.5 * h
boxes = torch.stack((x1, y1, x2, y2), axis=-1)
return boxes
进行验证:
# bbox是边界框的英文缩写
dog_bbox, cat_bbox = [60.0, 45.0, 378.0, 516.0], [400.0, 112.0, 655.0, 493.0]
boxes = torch.tensor((dog_bbox, cat_bbox))
box_center_to_corner(box_corner_to_center(boxes)) == boxes
输出结果如下:

在图片中画出边界框
def bbox_to_rect(bbox, color):
# 将边界框(左上x,左上y,右下x,右下y)格式转换成matplotlib格式:
# ((左上x,左上y),宽,高)
return plt.Rectangle(
xy=(bbox[0], bbox[1]), width=bbox[2]-bbox[0], height=bbox[3]-bbox[1],
fill=False, edgecolor=color, linewidth=2)
fig = plt.imshow(img)
fig.axes.add_patch(bbox_to_rect(dog_bbox, 'blue'))
fig.axes.add_patch(bbox_to_rect(cat_bbox, 'red'));
关于fig.axes.add_patch这部分可参考该博客link.
输出结果如下:

二、锚框
2.1生成多个锚框
生成方法
假设输入图像的高度为 h h h,宽度为 w w w。我们以图像的每个像素为中心生成不同形状的锚框。
缩放比为(缩放比由我们自己指定的) s ∈ ( 0 , 1 ] s∈(0, 1] s∈(0,1]
宽高比为(注意这里的宽高比是指锚框的高宽比,也是由我们自己指定) r > 0 r>0 r>0那么锚框的宽度和高度分别是 w s r 和 h s r ws\sqrt{r}和{hs\over\sqrt{r}} wsr和r

本文通过李沐老师的教程,详细解析了目标检测中边界框和锚框的概念,包括如何生成多个锚框、计算交并比(IOU)、分配真实边界框给锚框以及标记类别和偏移量的步骤,适合初学者理解目标检测的核心技术。
最低0.47元/天 解锁文章
1417

被折叠的 条评论
为什么被折叠?



