本文是南开大学在CVPR2019上提出的人脸识别方法。在人脸识别任务中,同一个人的的人脸图像在特征空间中要相近,不同人的人脸图像要远离。最近的人脸识别研究都是通过设计loss惩罚同一identity下的人脸差异,关注于类内差异的压缩。而本篇论文的关注点则是类间相似性的分离,将不同类别间的角拉开,以提取出判别性特征。
一. Introduction
在开集人脸识别的任务中,关键在于学习出具有判别性的人脸特征表示,判别性特征的两个因素就是类内差异和类间相似:同一个人的人脸在特征空间中要相似,不同人脸要远离。
现有方法比如Center Loss, SphereFace, CosFace 和ArcFace都是集中于类内差异的压缩,在欧式空间(Center Loss)或者球面空间(SphereFace, CosFace 和ArcFace)上拉近特征到类中心的距离。
本文考虑的是判别性特征的另一个因素:类间相似。目的在于拉开不同类别间的距离,因此本文提出了一个正则化项 “Exclusve regularization”, 拉大不同类别的参数向量,生成具有“排斥性”的分类向量。
本文的创新点和优点有:
(1)用类别中心间的角度距离来评估类间分离性;
(2)提出了“Exclusive Regularization”来拉大不同类别间的角度距离;
(3)本文具有正交性,可以配合其他现有方法来进一步提高性能;
(4)在多个公开数据集上的性能有显著的提升
二. Related Work
基于Loss的人脸识别方法分为两类:Softmax-based methods和 Softmax-free methods.
Softmax-free methods
在这种方法下主要通过输入图像对以及成对的标签来训练特征表示。主要有:Siamese networks, Contrastive Loss, 和 Triplet Loss. 思想在于拉近同一人的人脸图像距离,拉远不同人间的人脸距离。这些度量loss通常对样本数据的配对要求比较高。
Softmax-based methods
基于softmax的方法以图像的id身份为监督,用分类loss来提高识别精度和特征判别性。近期的工作主要有:Center Loss,从欧式空间去拉近样本特征与其类中心的距离;SphereFace,提出angular margin softmax loss, 在原始的softmax的决策边界上增加了一个乘法的angular margin;ArcFace,提出加法的angular margin;CosFace,从cosine域上压缩类内的决策边界。
三. Observation and Motivation
3.1 Softmax Loss and Variants
Center Loss : 惩罚人脸特征及其类中心向量之间的欧式距离,让样本离类别中心更近
Softmax Loss & Angular Soatmax Loss
将
x
i
x_i
xi 分类到类别c的后验概率:
softmax loss:
将偏置设为c并对权重矩阵W归一化:
上式中cos()的角度是特征向量
x
i
x_i
xi与W的第c类中心向量之间的角度。说明最小化softmax loss等同于最小化特征与类向量间的距离。
Angular Soatmax Loss: SphereFace在angular softmax loss的决策边界上引入一个angular margin,达到压缩同一类别下的特征嵌入的目的。
3.2 Inter-class Seperability
现有的方法主要集中于类内的紧致性,而不太关注类间的分离性。近期的方法主要用小的数据集(MNIST)做实验,从几何角度上去证明所学特征的判别性,这种实验是在一个低维空间(2D/3D)上限制了特征表示,以简化可视效果。
但实际上聚类数量(identity)比特征维度要相对冗余,类蔟之间要有伸展,才能降低分类错误。SOTA论文的实验中,类别中心接近于均匀分布,不符合真实应用下的数据,会让人误以为类别中心是均匀分布在特征空间中的。
本文用下面式子去评估两个类别之间的分离性,因为CNN的最后一个FC layer的权重矩阵W的每一列可以视作每个类别中心的向量,因此两个类向量间的cosine距离计算为:
说明:
理想状态下,我们希望类别中心能够统一分布,彼此之间有一定的可分性(cos值要小)。因此
S
e
p
i
Sep_i
Sepi的均值和标准差都要尽可能的小,下面的表格是不同的softmax-based loss下的类间分离性的比较:
3.3 Motivation of Exclusive Regularization
由上面的表格我们可以看到现有几个方法的类别中心的分布并不理性,因此本文提出,通过提高类间的可分性,来提取出判别性特征。受==“不同identity的类别中心应该离得远”==的启发,本文提出“Exclusive Regularization”,在训练过程中,让每个类别中心
W
j
W_j
Wj之间离得远些。
四. Exclusive Regularization
本文提出的“Exclusive Regularization”的公式如下:
主要的目的是最小化每个类别
W
i
W_i
Wi与其最近的类别
W
j
W_j
Wj之间的余弦距离。这个正则化项与其他的softmax-based loss联合作为网络的总损失函数。Softmax-based loss可以是其他方法之一,以进一步提高性能。
Angular softmax loss:
Objective function:
Angular softmax loss和exclusive regularization的联合,一方面专注于类内紧凑性,另一方面专注于类间分离性,这样可以是特征更具判别性。
用Stochastic Gradient Descent对
Θ
\Theta
Θ优化
用Projected Gradient Descent对W优化
由于本文方法中,类别矩阵W要投影到超球面上,计算Angular Softmax Loss,SGD梯度优化会将W拉离超球表面,因此采用投影梯度优化:
上式中的第二步“projected step”将更新了的参数投影到约束的最近边界。
Exclisive Regularization的优化
五. Experiments
Network Structure:ResNet20
Image Size: 112 * 96 RGB
Feature Dimension: 512-d
Face Detector: MTCNN
Training Data: CASIA-WebFace - 494,414 faces with 10,575 ids; VGGFace2 - 3.1 million faces
with 8,631 ids
Test Dats: LFW, YTF, MegaFace
不同loss在低维空间中的类别分布图
在LFW上的对比结果
在FaceScrub上的对比结果