论文Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks

原文地址: Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks
引言:
(部分翻译)人脸对齐可以被粗糙的分为两类方法,基于回归和模板适应方法。然而很多研究忽略了人脸检测与对齐之间的内在联系,尽管有工作尝试结合它们,但也存在很多限制。
在这里我们提出一种新的框架来整合这两个人物,使用统一的层级CNNs和多任务学习。提出的CNNs网络包括三个部分,第一个使用浅层CNN产生候选窗口,然后通过一个更复杂的CNN来拒绝大量没有脸的窗口来改进,最后用一个更强力的CNN来优化结果并输出5个脸部特征位置

图示
Approach方法:
整体框架:
Stage 1:我们搭建了一个全卷积网络,称其为Proposal Network(P-Net),来获取候选脸部窗口和边界框回归向量。然后候选框将会基于估算的边界框向量来校正,然后我们使用非极大值抑制(NMS)来合并搞重复读的候选框
Stage 2:所有候选框被送到另一个CNN,成为Refine Network(R-Net),其会拒绝大量错误的候选项,并用边界框回归来校正,使用NMS
Stage 3:这个部分和Stage 2相似,但是在此我们旨在用更多的监督(标签)来标识脸部区域,特别的,网络会输出5个脸部特征地址(两眼,鼻,两个嘴角)

这里写图片描述

CNN架构:
使用5x5 代替3x3
使用PReLU作为非线性激活函数

训练:
使用了三个任务来训练CNN,脸/非脸分类,边界框回归,脸部标识定位
预处理:
裁剪大小为12*12,24*24,48*48大小的图片(包括pos,neg,part的图片)
PNet:(网络结构在上图)
输入:图片(大小12*12),标准化的Bbox坐标,标准化的landmark坐标 (标准化 即为相对的坐标或者偏移值)
输出:face classification,标准化的Bbox坐标,标准化的landmark坐标
RNet,ONet:
输入:图片,Bbox,landmark坐标,只有图片大小不同(24*24 和 48*48)
输出:PNet相同

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值