人脸检测算法总结:SSH

SSH(Single Shot MultiBox Head)是一种轻量级的人脸检测器,采用单阶段检测,避免了两阶段方法的复杂性。它在分类网络的不同层上添加检测分支,以处理不同尺度的人脸。SSH通过context module提升检测效果,并使用不同stride的检测分支来实现尺度不变性。训练过程中,SSH针对不同尺度的anchor分配到相应分支进行优化,损失函数包括分类和回归损失。该算法在多个人脸检测数据集上表现出优秀的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

人脸检测算法:Single stage Headless Face Detector


学习人脸检测算法,其实主要是为了前一段时间参加了云从科技的人头计数比赛,然后就看了一些针对人脸检测算法的论文,在这里总结一下。
整个算法和SSD类似,均为one-stage,并且直接在featuremap金字塔上做预测,每个featuremap中的anchor尺度不同,这一点完全和SSD的思路一样。
总体结构

在这里插入图片描述
上为SSH的流程图。在分类网络各层feature map后面连接三个检测分支,通过全卷积而非全连接层做人脸检测和bbox分类。三个分支的stride分别为8,16,32.检测分支有连个全卷积网络分别用于分类和bbox回归。
SSH在anchor 上的操作基本上和RPN一致,区别在于仅用了一个长宽比,即每个feature map上的anchor总数为W×H×k,k为尺度。
在这里插入图片描述
检测分支如图3所示,包含一个context module用于提升有效感受野,context module的输出通道数目X在分支M1设置为128,M2M3为256。二者结果concat之后,接两个1×1的卷积,用于bbox回归和分类。具体的输出维度为2×k,和4×k。
Scale Invariance Design
如图2所示,三个检测分支中,M2使用的是VGG中conv5-3的feature map。M1基于feature map的融合,使用更大尺度的conv4-3融合双线性插值上采样后的conv5-3.同时使用1×1的卷积将channels减少到128,以减少计算量。M3用于检测最大尺度的人脸,在conv5-3上使用stride2的Maxpooling,将feature map的stride变为32×32。再接检测分支M3.
context module
之前的two-stage检测器,通过增大proposal的尺度来获取上下文信息,SSH通过简单的conv层叠也可以达到类似的效果;如图4所示:基于使用更大的filter就可以获得更大感受野的思路,在context module中使用5×5和7×7的,同时为了减

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值