吴恩达深度学习课程笔记(四):卷积神经网络3 目标检测
3.1 目标定位(Object localization)
- 图像分类:
- 算法判断图像的内容是不是汽车。
- 目标定位:
- 算法判断图像是不是汽车,同时在图像中标记出车的位置。
- 目标检测:
- 图像中存在多个对象,算法检测出这些对象,并确定出位置。

目标定位:
符号约定:
- 图像左上角:(0,0)
- 图像右下角:(1,1)
- bx、by:目标的中心点坐标;
- bh、bw:目标的高度和宽度;

对目标定位任务,神经网络除了需要识别图像中的目标以外,还需要定位,所以神经网络的输出除了对图像的分类,还有图像的位置参数 dx、dy、dh、dw d x 、 d y 、 d h 、 d w 。

位置参数的理想值:
dx=0.5、dy=0.7、dh=0.3、dw=0.4 d x = 0.5 、 d y = 0.7 、 d h = 0.3 、 d w = 0.4
标签的定义:
网络现在有8个参数:
- 四个位置参数 dx、dy、dh、dw d x 、 d y 、 d h 、 d w ;
- 四个分类参数:行人、车、摩托、背景;
那么,标签 y y 的第一个参数 表示:是否存在目标。
可以将 pc p c 理解为被检测图像属于某一分类的概率(分类1:存在目标,分类2,不存在目标)。
- 如果不存在目标,其他参数毫无意义。如果存在目标,再看其他参数。


损失函数:
损失函数分为存在目标和不存在目标两种情况。
因为在不存在目标时,其他七个参数没有意义。只需要考虑 pc p c 的准确度。

上图中,采用平方误差来说明损失函数在不同情况下的区别之处。
实际上,可以不用对softmax层输出的 c1、c2、c3 c 1 、 c 2 、 c 3 使用对数似然损失函数。通常做法是对坐标 dx、dy、d

本文详细介绍了卷积神经网络在目标检测中的应用,包括目标定位、特征点检测、目标检测算法,重点讲解了YOLO算法的工作原理、Anchor Boxes的概念及其在处理多目标检测中的作用。此外,还探讨了交并比(IoU)和非极大值抑制等关键概念。

最低0.47元/天 解锁文章
6556

被折叠的 条评论
为什么被折叠?



