目标检测—锚框

最新推荐文章于 2024-10-24 13:54:37 发布

原创

最新推荐文章于 2024-10-24 13:54:37 发布 · 2.2k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #计算机视觉 #pytorch

本文通过李沐老师的教程，详细解析了目标检测中边界框和锚框的概念，包括如何生成多个锚框、计算交并比（IOU）、分配真实边界框给锚框以及标记类别和偏移量的步骤，适合初学者理解目标检测的核心技术。

提示：本文是参考李沐老师目标检测这一章，对该章边界框和锚框代码的整体梳理，具体资料连接会在文章中给出。且全部实验代码是在kaggle平台上验证过滴。

文章目录

前言
一、边界框
二、锚框

前言

李沐老师参考资料地址：link(代码参考地址). link(视屏参考地址).
这部分会使用到一张猫狗图片，现在我将其下载下来并放到我的网盘之中，提取链接以及提取码如下：
链接：https://pan.baidu.com/s/12vsj-HYPs1GKFFgJ3f8MsA
提取码：6666

一、边界框

这里我将图片上传到了kaggle平台上，如下图所示：
在这里插入图片描述
接下来，我们读取图片，并将对图片进行显示。

'''
	注意
	%matplotlib inline在pycharm中会报错，这只适用于在Juter和其类似的软件中(如kaggle上)。
	若想要在pycharm中显示图片，在调用plt.imshow()函数后，调用plt.show()函数即可。
'''
%matplotlib inline
import torch
import matplotlib.pyplot as plt
from IPython import display

def set_figsize(figsize=(3.5, 2.5)):
    """Set the figure size for matplotlib.

    Defined in :numref:`sec_calculus`"""
    display.set_matplotlib_formats('svg')
    plt.rcParams['figure.figsize'] = figsize

# 调用
set_figsize()
'''这是我的路径，大家注意一下填写自己的路径'''
img = plt.imread('../input/catdog/catdog.jpg')
plt.imshow(img);

结果如下图所示：
在这里插入图片描述
注意
我们看到显示图片的坐标的y轴与我们平常所学平面坐标系是不一样的，这是理解后续代码的基础之一。
接下来，查看图片的shape

img.shape

结果如下图所示：
在这里插入图片描述
边界框定义
在目标检测中，我们通常使用边界框来描述对象空间的位置，且边界框是矩形的。
边界框表示方法
方法1：
由左上角坐标( $x_{左上}$ , $y_{左上}$ )和右下角坐标( $x_{右下}$ , $y_{右下}$ )，在显示图片的坐标系中永远有 $x_{右下}$ > $x_{左上}$ ， $y_{右下}$ > $y_{左上}$ 。
方法2：
知道边界框的中心坐标( $x_{中心}$ , $y_{中心}$ )，以及边界框的高H和宽W。
接下来定义在两种表示方法之间进行转换的函数。

'''
	方法1转换到方法2
	输入参数boxes可以是长度为4的张量，也可以是形状为（n，4）的二维张量，其中n是边界框的数量。
	输入参数格式为 (x_左上, y_左上, x_右下, y_右下)———>(boxes[:, 0], boxes[:, 1], boxes[:, 2],  boxes[:, 3)，下同
	返回值格式为 (x_中心, y_中心， w, h)
'''
def box_corner_to_center(boxes):
    """从（左上，右下）转换到（中间，宽度，高度）"""
    x1, y1, x2, y2 = boxes[:, 0], boxes[:, 1], boxes[:, 2], boxes[:, 3]
    cx = (x1 + x2) / 2
    cy = (y1 + y2) / 2
    w = x2 - x1
    h = y2 - y1
    boxes = torch.stack((cx, cy, w, h), axis=-1)
    return boxes

'''
	方法2转换到方法1
	输入参数格式为 (x_中心, y_中心， w, h)
	返回值格式为 (x_左上, y_左上, x_右下, y_右下)
'''
def box_center_to_corner(boxes):
    """从（中间，宽度，高度）转换到（左上，右下）"""
    cx, cy, w, h = boxes[:, 0], boxes[:, 1], boxes[:, 2], boxes[:, 3]
    x1 = cx - 0.5 * w
    y1 = cy - 0.5 * h
    x2 = cx + 0.5 * w
    y2 = cy + 0.5 * h
    boxes = torch.stack((x1, y1, x2, y2), axis=-1)
    return boxes

进行验证：

# bbox是边界框的英文缩写
dog_bbox, cat_bbox = [60.0, 45.0, 378.0, 516.0], [400.0, 112.0, 655.0, 493.0]

boxes = torch.tensor((dog_bbox, cat_bbox))
box_center_to_corner(box_corner_to_center(boxes)) == boxes

输出结果如下：
在这里插入图片描述
在图片中画出边界框

def bbox_to_rect(bbox, color):
    # 将边界框(左上x,左上y,右下x,右下y)格式转换成matplotlib格式：
    # ((左上x,左上y),宽,高)
    return plt.Rectangle(
        xy=(bbox[0], bbox[1]), width=bbox[2]-bbox[0], height=bbox[3]-bbox[1],
        fill=False, edgecolor=color, linewidth=2)

fig = plt.imshow(img)
fig.axes.add_patch(bbox_to_rect(dog_bbox, 'blue'))
fig.axes.add_patch(bbox_to_rect(cat_bbox, 'red'));

关于fig.axes.add_patch这部分可参考该博客link.
输出结果如下：
在这里插入图片描述

二、锚框

2.1生成多个锚框

生成方法
假设输入图像的高度为 $h$ ，宽度为 $w$ 。我们以图像的每个像素为中心生成不同形状的锚框。
缩放比为（缩放比由我们自己指定的） $s \in (0, 1]$
宽高比为（注意这里的宽高比是指锚框的高宽比，也是由我们自己指定） $r > 0$ 那么锚框的宽度和高度分别是 $ws\sqrt{r}和{hs\over\sqrt{r}}$

最低0.47元/天解锁文章