目标检测—锚框

本文通过李沐老师的教程,详细解析了目标检测中边界框和锚框的概念,包括如何生成多个锚框、计算交并比(IOU)、分配真实边界框给锚框以及标记类别和偏移量的步骤,适合初学者理解目标检测的核心技术。

提示:本文是参考李沐老师目标检测这一章,对该章边界框和锚框代码的整体梳理,具体资料连接会在文章中给出。且全部实验代码是在kaggle平台上验证过滴。


前言

李沐老师参考资料地址:link(代码参考地址). link(视屏参考地址).
这部分会使用到一张猫狗图片,现在我将其下载下来并放到我的网盘之中,提取链接以及提取码如下:
链接:https://pan.baidu.com/s/12vsj-HYPs1GKFFgJ3f8MsA
提取码:6666

一、边界框

这里我将图片上传到了kaggle平台上,如下图所示:
在这里插入图片描述
接下来,我们读取图片,并将对图片进行显示。

'''
	注意
	%matplotlib inline在pycharm中会报错,这只适用于在Juter和其类似的软件中(如kaggle上)。
	若想要在pycharm中显示图片,在调用plt.imshow()函数后,调用plt.show()函数即可。
'''
%matplotlib inline
import torch
import matplotlib.pyplot as plt
from IPython import display

def set_figsize(figsize=(3.5, 2.5)):
    """Set the figure size for matplotlib.

    Defined in :numref:`sec_calculus`"""
    display.set_matplotlib_formats('svg')
    plt.rcParams['figure.figsize'] = figsize

# 调用
set_figsize()
'''这是我的路径,大家注意一下填写自己的路径'''
img = plt.imread('../input/catdog/catdog.jpg')
plt.imshow(img);

结果如下图所示:
在这里插入图片描述
注意
我们看到显示图片的坐标的y轴与我们平常所学平面坐标系是不一样的,这是理解后续代码的基础之一。
接下来,查看图片的shape

img.shape

结果如下图所示:
在这里插入图片描述
边界框定义
在目标检测中,我们通常使用边界框来描述对象空间的位置,且边界框是矩形的。
边界框表示方法
方法1:
由左上角坐标( x 左 上 x_{左上} x, y 左 上 y_{左上} y)和右下角坐标( x 右 下 x_{右下} x, y 右 下 y_{右下} y),在显示图片的坐标系中永远有 x 右 下 x_{右下} x> x 左 上 x_{左上} x y 右 下 y_{右下} y> y 左 上 y_{左上} y
方法2:
知道边界框的中心坐标( x 中 心 x_{中心} x, y 中 心 y_{中心} y),以及边界框的高H和宽W。
接下来定义在两种表示方法之间进行转换的函数。

'''
	方法1转换到方法2
	输入参数boxes可以是长度为4的张量,也可以是形状为(n,4)的二维张量,其中n是边界框的数量。
	输入参数格式为 (x_左上, y_左上, x_右下, y_右下)———>(boxes[:, 0], boxes[:, 1], boxes[:, 2],  boxes[:, 3),下同
	返回值格式为 (x_中心, y_中心, w, h)
'''
def box_corner_to_center(boxes):
    """从(左上,右下)转换到(中间,宽度,高度)"""
    x1, y1, x2, y2 = boxes[:, 0], boxes[:, 1], boxes[:, 2], boxes[:, 3]
    cx = (x1 + x2) / 2
    cy = (y1 + y2) / 2
    w = x2 - x1
    h = y2 - y1
    boxes = torch.stack((cx, cy, w, h), axis=-1)
    return boxes

'''
	方法2转换到方法1
	输入参数格式为 (x_中心, y_中心, w, h)
	返回值格式为 (x_左上, y_左上, x_右下, y_右下)
'''
def box_center_to_corner(boxes):
    """从(中间,宽度,高度)转换到(左上,右下)"""
    cx, cy, w, h = boxes[:, 0], boxes[:, 1], boxes[:, 2], boxes[:, 3]
    x1 = cx - 0.5 * w
    y1 = cy - 0.5 * h
    x2 = cx + 0.5 * w
    y2 = cy + 0.5 * h
    boxes = torch.stack((x1, y1, x2, y2), axis=-1)
    return boxes

进行验证:

# bbox是边界框的英文缩写
dog_bbox, cat_bbox = [60.0, 45.0, 378.0, 516.0], [400.0, 112.0, 655.0, 493.0]

boxes = torch.tensor((dog_bbox, cat_bbox))
box_center_to_corner(box_corner_to_center(boxes)) == boxes

输出结果如下:
在这里插入图片描述
在图片中画出边界框

def bbox_to_rect(bbox, color):
    # 将边界框(左上x,左上y,右下x,右下y)格式转换成matplotlib格式:
    # ((左上x,左上y),宽,高)
    return plt.Rectangle(
        xy=(bbox[0], bbox[1]), width=bbox[2]-bbox[0], height=bbox[3]-bbox[1],
        fill=False, edgecolor=color, linewidth=2)

fig = plt.imshow(img)
fig.axes.add_patch(bbox_to_rect(dog_bbox, 'blue'))
fig.axes.add_patch(bbox_to_rect(cat_bbox, 'red'));

关于fig.axes.add_patch这部分可参考该博客link.
输出结果如下:
在这里插入图片描述

二、锚框

2.1生成多个锚框

生成方法
假设输入图像的高度为 h h h,宽度为 w w w。我们以图像的每个像素为中心生成不同形状的锚框。
缩放比为(缩放比由我们自己指定的) s ∈ ( 0 , 1 ] s∈(0, 1] s(0,1]
宽高比为(注意这里的宽高比是指锚框的高宽比,也是由我们自己指定) r > 0 r>0 r>0那么锚框的宽度和高度分别是 w s r 和 h s r ws\sqrt{r}和{hs\over\sqrt{r}} wsr r

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值