本文内容主要参考,吴恩达《卷积神经网络》 第三周目标检测
视频地址:https://www.bilibili.com/video/av36381900/?p=3
1. 目标定位:使用算法判断图片中是不是目标物体,如果是还要再图片中标出其位置并使用边框标记出来
在普通的图片分类网络中,对于一个图片,经过卷积层特征提取后,送入softmax层转为为对于的概率
而分类定位则是在图片分类网络的基础上加入了全连接层的输出bx,by,bh,bw和一个分类标签(c1,c2,c3...),其最后输出形式如下:
其中:
Pc:表示被检测对象某一分类的概率(即是否含有被检测的对象)。假设要检验汽车、摩托车、行人、景物。但是前三个检测对象是我们关心的,那么如果出现Pc为1,图片为景物或者其他不是我们关系的则Pc为0。
bx,by,bh,bw:bx,by为标记边框的中心位置坐标,bh,bw:为标记边框的长高。将图片归一化,设图片左上角标记为(0,0),右下角标记为(1,1),对于图中汽车中心点,其数据大概可以是 bx =0.5,by = 0.7 。对于bounding box,其 bh = 0.3,bw = 0.4
c1,c2,c3.....cn:为分类标签,n对应自己实际的分类标签个数。但是在c1,c2,c3.....cn 中只有一个为1。若分类标签次序为汽车,摩托车和行人,所以n=3,c1 = 1,其余为0
损失函数计算:
Pc为1时,即检测出了感兴趣的物体,损失值等于每个元素相应差值的平方,即输出y中的每个元素作差再求平方和