人脸损失函数的各种变体

最新推荐文章于 2024-09-23 14:47:07 发布

hzhj

最新推荐文章于 2024-09-23 14:47:07 发布

阅读量597

点赞数 1

分类专栏：深度学习神经网络损失函数文章标签：交叉熵损失函数

本文链接：https://blog.youkuaiyun.com/hzhj2007/article/details/89501733

版权

深度学习同时被 3 个专栏收录

20 篇文章

订阅专栏

神经网络

9 篇文章

订阅专栏

损失函数

5 篇文章

订阅专栏

本文深入解析基于softmax的交叉熵损失函数及其在人脸识别领域的多种变体，包括L-SoftmaxLoss、A-Softmax(SphereFace)、CosFace、AM-SoftmaxLoss和ArcFace等，探讨了它们如何通过调整向量夹角和余弦距离来优化分类效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

人脸损失函数的各种变体都是基于softmax的交叉熵损失函数进行改进的，因此本文首先介绍基础形式，然后对各种变体进行说明。

基于softmax的交叉熵损失函数

先放上两者的基本形式

$E(x)=-\sum p{_{x}}*log(q{_{x}})$ CE形式，其中 $p{_{x}}$ 为样本真实分布， $q{_{x}}$ 为该样本观察分布

$\sigma (z_{j})=\frac{e^{z{_{j}}}}{\sum_{k=1}^{K}{e^{z{_{k}}}}}$ Softmax形式

基于softmax的交叉熵损失函数，就是利用softmax的值替代CE中样本的观察分布 $q{_{x}}$ ，真实分布 $p{_{x}}$ 为one-hot向量。具体计算过程可参考tf损失函数的参数，其中labels传入样本真实分布，logits值传入softmax计算所需要的 $z{_{k}}$ 值。

人脸其他损失函数变体的由来

针对上述基本形式，真实分布的one-hot向量不会改变，指数和对数计算函数不改变的情况下，影响计算结果的只有标量 $z{_{j}}$ 的值。而 $z{_{j}}$ 是通过 $w{_{j}}*x{_{j}}+b{_{j}}$ 计算获得的，因此针对向量点乘的公式被拔得体无完肤。总的来说都是利用余弦函数在[0, $\pi$ ]区间单调递减的特性来达到目标的。

L-Softmax Loss和A-Softmax(SphereFace)

$L{_{i}}=-log(\frac{e^{\left \| w{_{y{_{i}}}} \right \|\left \| x{_{i}} \right \|\psi (\theta y{_{i}})}}{e^{\left \| w{_{y{_{i}}}} \right \|\left \| x{_{i}} \right \|\psi (\theta y{_{i}})}+\sum {_{j\neq y{_{i}}}}e^{\left \| w{_{y{_{i}}}} \right \|\left \| x{_{i}} \right \|\cos(\theta{_{j}})}})$ 其中 $\psi (\theta )=\left\{\begin{matrix} cos(m\theta ), 0\leqslant \theta \leqslant \frac{\pi }{m} & \\ D(\theta ), \frac{\pi }{m}< \theta \leqslant \pi & \end{matrix}\right.$ L-Softmax形式

$L{_{ang}}=\frac{1}{N}\sum_{i}-log(\frac{e^{{\left \| x{_{i}} \right \|}\psi (\theta {_{y{_{i}}}},{_{i}})}}{e^{{\left \| x{_{i}} \right \|}\psi (\theta {_{y{_{i}}}},{_{i}})}+\sum {_{j\neq y{_{i}}}}e^{{\left \| x{_{i}} \right \|}cos (\theta {_{j}},{_{i}})}})$ 其中 $\psi (\theta {y{_{i}},i})=(-1)^{k}cos(m\theta{y{_{i}}},{_{i}) -2k$ A-Softmax形式

上述两个损失函数主要是针对向量夹角进行的改进，即样本与对应权重间的夹角由 $\theta$ 变为 $m\theta$ ，由于当m>1时， $cos(\theta )>cos(m\theta )$ ，这样以来当样本与权重在较大夹角情况下满足点乘值最大时，类别的泛化能力更好，另一方面使得类内间距更小，类间间距更大。

LMCL（Large Margin Cosine Loss, CosFace）和AM-Softmax Loss

$L{_{lmc}}=\frac{1}{N}\sum_{i}-log\frac{e^{s(cos(\theta {_{y{_{i}}},_{i}})-m)}}{e^{s(cos(\theta {_{y{_{i}}},_{i}})-m) + \sum {_{j \neq y{_{i}} }e^{scos(\theta {_{j,i}})}}}}$ CosFace损失函数， $m\in [0, \frac{c}{c-1})$

$L{_{AMS}}=-\frac{1}{n}\sum_{i=1}^{n}log\frac{e^{s\cdot (cos\theta {_{y{_{i}}}-m})}}{e^{s\cdot (cos\theta {_{y{_{i}}}-m})}+\sum _{j=1,j\neq y{_{i}}}^{C}e^{s\cdot cos\theta{_{j}}}}$ AM-Softmax 损失函数

两篇论文的损失函数都是通过对余弦距离的结果进行的改进，即在原来余弦距离的基础上增加m的冗余。针对余弦距离的修改比针对角度距离的修改后分类效果更佳明显。至于s的由来，可参考论文CosFace中的说法： $\left \| x \right \|$ 对得分函数没有贡献，因此将该值使用s进行替代。

ArcFace

$L=-\frac{1}{N}\sum_{i=1}^{N}log\frac{e{^{s(cos(\theta y{_{i}} + m))}}}{e{^{s(cos(\theta y{_{i}} + m))}} + \sum{^{n}}{_{j=1,j\neq y{_{i}}}}e{^{scos\theta{_{j}}}}}$ ArcFace的损失函数