MTCNN的测试

级联

级联的思想:将复杂的任务进行分解,将要解决的复杂问题,转化成若干简单的问题。提高处理问题的效率和效果。好比流水线工作,各个工作环节首尾相连,最终获得了一个完整的工作链。

级联的作用:主要体现在使用网络的时候,P网络的输出经过处理之后,输入R网络,R网络的输出经过处理之后,输入O网络,O网络的输出处理之后,作为最终的输出结果。

重复框

侦测的过程,滑动侦测区域窗口,每滑动一次侦测窗口,输出一个人脸目标,步长较小的情况下,相邻窗口的特征图相似度较高;

图像缩放后的金字塔图像造成的,这种情况造成的更多问题就是嵌套框,大框套小框。

为了解决重复框的问题,我们需要用到IOU和NMS。

IOU

IOU就是两个图形面积的交并比。IOU的作用就是计算两个图像的面积重合度,如果两个图像有交集,那么就使用两个图像的交集除以并集,就可以得到重复面积的值,也就是IOU值,很显然,这个值的范围在0~1之间,两个图像完全不重合IOU值为0,完全重合,IOU值为1.

另外一种嵌套框的IOU计算,是根据交集除以最小面积计算。 大框套小框 IOU=1

NMS(非极大值抑制)

非极大值抑制,主要用于检测中提取置信度分数最高的窗口。NMS在计算机视觉领域有着非常重要的应用,如视频目标追踪、数据挖掘、3D重建、目标识别以及纹理分析等。

方法:
1.将所有预测框的置信度按从大到小的顺序排列
2.取出其中置信度最大的预测框和其他剩余的预测框逐个做IOU
3.将IOU值大于一定阈值的预测框剔除。(IOU大于一定阈值,我们认为建议框框的区域重复度较大,或者嵌套了。)
4.保留上次置信度最大的预测框为一组,剩余预测框重新排序组合为一组。
5.重新排序组合的预测框继续之前的操作直到做完所有预测框的NMS结束。
在这里插入图片描述

图像金字塔

将图片按一定比列缩小
在这里插入图片描述

图像转正方形

图像转换成正方形的原因:
P网络输出的坐标大概率不是一个正方形的坐标框,但是R网络的输入是批量的,且输出层是全连接的。这样P网络输出的坐标框就要被缩放成正方形。如果直接缩放会导致图像变形,特征不准确。所以需要对P网络输出的坐标框进行正方形转换后在缩放裁剪。

把裁剪的坐标框在原图上转换成正方形,也就是把坐标框的短边在原图上放大成和长边一致。或者把长边缩小和短边一致。
红色框为黑色框转成正方形之后的框

图像坐标反算

图像坐标反算就是把网络输出的图像坐标的偏移量计算成坐标值。偏移量就是一个坐标点相对于另一个坐标点的偏移率,是相对位置的偏移值,不是具体的坐标值。偏移量是一个很小的值,网络学习起来更容易收敛。网络学习的不是实际框,而是偏移后的建议框,学习到建议框后再根据偏移量反算回实际框,这样做可以丰富图像的特征,只要找到实际框周围的一个建议框,就可以找到实际框。另外,偏移量计算的是真实的标签框相对于预测框偏移了多少。

根据网络输出的特征图,拿到特征图中存储的偏移量。如图左红色框、蓝色框和图右红色索引、蓝色索引对应的位置,需要注意的是,索引的第0个为H,第1个为W。再除以缩放比例,就能得到建议框再原图上的坐标。之后,再根据偏移量,计算出预测框的位置。
在这里插入图片描述计算建议框计算预测框

测试流程

流程
测试效果
效果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值