吴恩达机器学习——04卷积神经网络(3)

本文介绍了目标检测的基本概念,包括目标定位与特征点检测,重点讲解了卷积神经网络在目标检测中的应用,如滑动窗口算法和YOLO(You Only Look Once)算法。YOLO通过在整幅图像上加网格,直接输出边界框信息,提高了计算效率和检测精度。此外,还讨论了交并比、非极大值抑制和Anchor Boxes在优化检测结果中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这一节的内容是目标检测。

一、目标定位与特征点检测

二、目标检测

三、卷积的滑动窗口实现

四、Bounding Box预测

五、交并比、非极大值抑制与Anchor Boxes

六、YOLO算法

七、候选区域

 

一、目标定位与特征点检测

1、目标定位

    1.1、图片检测问题:

    (1)分类问题:判断图中是否为汽车

    (2)目标定位:判断是否为汽车,并确定其具体位置

    (3)目标检测:检测多种不同物体并定位

    

    1.2、目标分类与定位

    对于目标定位问题,卷积网络可能如下:

    

    得到预测值y,其中bx,by代表汽车中点,bh,bw分别表示定位框的高和宽,以图片左上角为(0,0),右下角为(1,1),那么这四个参数数字均为位置或者长度所在图片的比例大小。

    

    当pc=1时,表示图中存在物体

    当pc=0时,表示图片中不存在物体,那么此时y的其他值为多少没有意义,不会参与损失函数的计算。

    1.3、损失函数

    (1)如果采用平方误差形式的损失函数:

    

    此时,我们只需要关注神经网络对所有输出值的准确度,要求出8个参数产生的偏差。

    

    此时,我们只需要关注神经网络对背景值的准确度,只需要求出pc的偏差,而其余七个参数没有意义。

    (2)当然在实际应用中,我们可以采用如下方法:

            对c1,c2,c3的softmax不使用对数似然损失函数来输出其中的一个值。通常的做法是对边界框坐标应用平方差或者类似方法,对pc应用逻辑回归函数,甚至采用平方预测误差也可以的。

2、特征点检测

    由前面的目标定位问题,我们可以知道,神经网络可以通过输出图片上特征点的坐标(x,y),来实现对目标特征的识别和定位标记。

    

    如对人脸识别的问题中,我们通过标定训练数据集中特征点的位置信息,来对人脸进行不同位置不同特征的定位和标记。AR的应用就是基于人脸表情识别来设计的,如脸部扭曲、增加头部饰件等。在人体姿态检测中,同样可以通过对人体不同的特征关键点的标注,来记录人体的姿态。

二、目标检测

    目标检测,学习如何通过卷积网络进行对象检测,采用的是滑动窗口的目标检测算法。

    2.1、训练模型:

    

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值