SphereFace论文学习

最新推荐文章于 2025-05-27 09:00:40 发布

cdknight_happy

最新推荐文章于 2025-05-27 09:00:40 发布

阅读量6.9k

点赞数 4

CC 4.0 BY-SA版权

分类专栏：人脸识别

本文链接：https://blog.youkuaiyun.com/cdknight_happy/article/details/79268613

人脸识别专栏收录该内容

22 篇文章

订阅专栏

提出A-Softmax损失函数增强特征角度可分性，适用于开集人脸识别，实验显示m值越大，准确率越高。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文《SphereFace: Deep Hypersphere Embedding for Face Recognition》
代码： https://github.com/wy1iu/sphereface

摘要

论文主要是针对开集的人脸识别任务，在超球面上做到特征分布高内聚、低耦合。作者提出了一种新的损失函数，叫做angular softmax(A-Softmax)。

简介

这里写图片描述
闭集的人脸识别是一个分类问题，只需要特征是可分的即可；开集的人脸识别更加符合实际业务需要，本质上是一个度量学习的问题，需要学习到有判别力的大间隔的特征。

理想的开集人脸识别学习到的特征需要满足的条件是在特定的度量空间内，需要同一类内的最大距离小于不同类之间的最小距离。然后再使用最近邻检索就可以实现良好的人脸识别和人脸验证性能。

center loss只是强调了类内的聚合度；对比损失和三元组损失需要精心地构建图像对和三元组，耗时并且构建的训练对的好坏直接影响识别性能。

一般都是想在欧式空间中学习到有判别力的特征，作者提出了一个问题：欧式空间的间隔总是适合于表示学习到了有判别力的特征吗？
这里写图片描述
在上图中，对于一个二分类的softmax，决策边界是 $(W_1-W_2)x+b_1-b_2=0$ ，假如定义 $||W_1||=||W_2||=1,b_1=b_2=0$ ，那么决策边界的形式变换为 $||x||(\cos(\theta_1)-\cos(\theta_2))=0$ ，这样设计的损失函数直接关注的是特征的角度可分性，使得训练出的CNN学习到具有角度判别力的特征。

作者在修改的softmax的基础上进一步加强了限制条件设计了A-Softmax，引入了一个整数m加大角度间隔。决策边界变形为 $||x||(\cos(m\theta_1)-cos(\theta_2))=0和||x||(\cos(\theta_1)-\cos(m\theta_2))=0$ 。通过最优化A-Softmax，决策区域更加可分，在增大类间间隔的同时压缩了类内的角度分布。

核心思想

三种softmax函数的决策边界对比
这里写图片描述

softmax-loss

二分类的softmax输出：
这里写图片描述
$W_i和b_i是最后一个全连接层中和第i类关联的参数$ 。
$p1>p2$ ，样本x属于类1； $p1<p2$ ，样本x属于类2。
根据上面的公式，其实就是在比较 $W_1^Tx+b_1和W_2^Tx+b_2$ ，因此决策边界就是 $(W_1-W_2)x+(b_1-b_2)=0$ .

这里写图片描述

Modified softmax

由于 $W^T_ix+b_i=||W^T|| ||x||\cos(\theta_i)+b_i$ ，假如对权重进行归一化 $||W_i||=1$ ，对偏置项置零 $b_i=0$ ，那么 $p_1=||x||\cos(\theta_1),p_2=||x||\cos(\theta_2)$ ，所以究竟分成那一类就取决于x与 $W_1和W_2$ 哪个的夹角较小。决策边界也就变成了 $\cos(\theta_1)-cos(\theta_2)=0$ 。多分类的情况下，分类边界也是同样的。
这里写图片描述

A-softmax

A-softmax是在modified softmax的基础上添加更严格的限制，即要求 $\cos(m\theta_1)>\cos(\theta_2)或\cos(m\theta_2)>cos(\theta_1)$ ，其中m是大于1的正整数。决策边界也变为了 $\cos(m\theta_1)=\cos(\theta_2)或\cos(m\theta_2)=cos(\theta_1)$ 。假如所有的训练样本都被正确分类，那么就会产生一个角度为 $\frac{m-1}{m+1}\theta_2^1$ 的margin，其中 $\theta_2^1$ 为 $W_1和W_2$ 之间的角度。对应的损失函数变形为
这里写图片描述
$\theta_{yi} \in [0,\frac{\pi}{m}]$ ;
泛化形式为：

这里写图片描述
最优化A-Softmax损失本质上是使得学习到的特征在超球面上更加具有可区分性。

A-Softmax损失的性质

m越大，损失函数最优化的难度越大，形成的角度间隔越大；
由于要使得同类的最大角度分布小于最小的不同类之间的间隔，所以m的取值有下限。对于二分类的情况， $m_{min}\geq2+\sqrt3$ ；多分类情况下， $m\geq3$ ；求解过程可以参考https://www.cnblogs.com/heguanyou/p/7503025.html#_caption_5
实验中，作者一般使用m=4.

实验

预处理：MTCNN人脸检测和特征点提取；减127.5除128处理图像。
使用余弦距离比较图像提取的特征的相似度；
所有的测试图像的特征都是原始人脸图像的特征和水平翻转之后的人脸图像的特征的连接向量作为最终特征。

m越大，准确率越高

这里写图片描述

A-Softmax准确率全面超越Softmax

这里写图片描述

对比其他算法

这里写图片描述

附录

移除倒数第二层的ReLU

移除倒数第二层(一般为全连接层)的ReLU，学习到的特征分布不被限制在第一象限，学习到的特征分布更加合理。
这里写图片描述

权重归一化的作用

归一化权重可以减小训练数据不均衡造成的影响。
这里写图片描述
权重矩阵的第i行 $W_i$ 表示第i类的系数，作者观察到第i类的训练样本数和 $W_i$ 的权重的范数正相关，这是一个先验信息。作者认为 $W_i$ 的范数主要取决于第i类训练样本的数量和分布情况。
对于人脸验证的任务和开集人脸识别的任务而言，测试图像的类是从未在训练样本中出现过的，所以应该消除上述先验信息。具体的做法就是归一化和softmax函数直接连接的全连接层的W。