介绍
本文开源了一个包含大量不同年龄段人的多形式(RGB,Depth,IR)的数据集,称之为CASIA-SURF,它也是当时不管从目标数还是形式数来看都是最大的开源活体检测数据集。它包含了1000个不同的目标,拥有21000个视频。其次,还提供了广泛的验证指标,不同的验证方式,训练/测试/验证子集,测量工具,进一步提升了活体检测的基准。
内容
文中也简述了现有的活体检测数据集的缺点:
1> 目标数太少,之前数据集的目标数不到170个,视频不足6000。
2> 形式太少,多数都是只有RGB一种形式的图片。
3> 验证标准不够广泛。
4> 验证方式不够多样性。
方法
活体检测也研究了很长时间。一些之前的研究试着通过眨眼等来检测是否是活体,还有的一些研究基于内容和移动的信息。为了提升对光照变化的鲁棒性,一些研究采用了HSV和YCbCr彩色空间和傅里叶变换。所有这些方法都使用了手动得到的特征,比如说LBP,HOG和GLCM。最近也提出了很多融合的方法来获得更泛化的检测性能,不够由于缺少多形式的数据集,这些方法多融合的是分值和特征层级,而不是各形式的数据。最近随着CNN的发展,将活体检测作为一个二分类问题来解决取得了不错的效果。
数据采集
数据集的采集是通过采用 Intel RealSense SR300相机在不同的室内背景下采集得到的,同时采集得到 RGB, Depth和InfraRed (IR)视频。采集的RGB图片分辨率为1280X720,Depth和IR的分辨率为640X480.采集过程如下:
攻击方式
通过A4纸彩印志愿者的人脸并扣去不同的部位得到了6种不同的攻击方式,如下图所示,分别为:
1> 将抠除了眼睛的A4纸平铺在脸上
2> 将抠除了眼睛的A4纸弯曲的放在脸上
3> 将抠除了眼睛和鼻子的A4纸平铺在脸上
4> 将抠除了眼睛和鼻子的A4纸弯曲的放在脸上
5> 将抠除了眼睛和鼻子和嘴巴的A4纸平铺在脸上
6> 将抠除了眼睛和鼻子和嘴巴的A4纸弯曲的放在脸上
数据预处理
在制作数据集时,移除了背景区域。具体步骤如下,如下图所示:
1:使用Dlib检测人脸区域并对齐。
2:采用PRNet进行3D重构和对齐。
3:基于之前的是否为人脸区域建立一个面具。
4:基于第三部的面具区域在原图上获取人脸,其他区域置空即可。
数据统计信息
在录制的视频上每10祯采样1帧作为样本。详细如下:
融合方法
本文也是将活体检测作为一个二分类问题,然后在ResNet18/34上进行了实验。然后这里存在的一个关键的问题就是如何融合这三种形式的数据,我们采用了三个分支子网络来分别学习对应的RGB/Depth/IR的数据,并提出了Squeeze and Excitation Fusion (SEF)模块来对不同层级的特征进行融合。就是对res3/4/5各个形式的图片特征通过SEF进行融合,然后再通过GAP之后连接在一起,然后再s送往预测真假。
SEF的组成及原理,如图1所示:
图1是SENet的Block单元,图中的Ftr是传统的卷积结构,X和U是Ftr的输入(C’xH’xW’)和输出(CxHxW),这些都是以往结构中已存在的。SENet增加的部分是U后的结构:对U先做一个Global Average Pooling(图中的Fsq(.),作者称为Squeeze过程),输出的1x1xC数据再经过两级全连接(图中的Fex(.),作者称为Excitation过程),最后用sigmoid(论文中的self-gating mechanism)限制到[0,1]的范围,把这个值作为scale乘到U的C个通道上, 作为下一级的输入数据。这种结构的原理是想通过控制scale的大小,把重要的特征增强,不重要的特征减弱,从而让提取的特征指向性更强。
本文的融合过程如下图(a)所示,SEF如图(b)所示:
消融实验
从表格中第一列可以看到各f方法的具体作用及效果。
不同形式图片的效果
文中通过实验证实了融合三种形式的图片得到的效果是最好的,而只使用RGB形式的图片的效果最差,具体如下:
跨形式验证
在一种形式的图片上训练,然后在另外一种形式的图片上验证,结果如下: