【技术综述】一文道尽softmax loss及其变种

部署运行你感兴趣的模型镜像

本文首发于龙鹏的知乎专栏《有三AI学院》

https://zhuanlan.zhihu.com/c_151876233

今天来说说softmax loss以及它的变种

 

01 softmax loss

softmax loss是我们最熟悉的loss之一了,分类任务中使用它,分割任务中依然使用它。softmax loss实际上是由softmax和cross-entropy loss组合而成,两者放一起数值计算更加稳定。这里我们将其数学推导一起回顾一遍。

令z是softmax层的输入,f(z)是softmax的输出,则

单个像素i的softmax loss等于cross-entropy error如下:

展开上式:

在caffe实现中,z即bottom blob,l(y,z)是top blob,反向传播时,就是要根据top blob diff得到bottom blob diff,所以要得到 

下面求loss对z的第k个节点的梯度

可见,传给groundtruth label节点和非groundtruth label节点的梯度是不一样的。

我们看看caffe中Backward的代码。

Dtype* bottom_diff =
bottom[0]->mutable_cpu_diff();
const Dtype* prob_data = prob_.cpu_data();
caffe_copy(prob_.count(), prob_data,
bottom_diff);
const Dtype* label =
bottom[1]->cpu_data();
int dim = prob_.count() / outer_num_;
int count = 0;
for (int i = 0; i < outer_num_; ++i) {
for (int j = 0; j < inner_num_; ++j) {
const int label_value =
static_cast<int>(label[i * inner_num_ + j]);
if (has_ignore_label_ &&
label_value == ignore_label_) {
for (int c = 0; c <
bottom[0]->shape(softmax_axis_); ++c) {
bottom_diff[i * dim + c *
inner_num_ + j] = 0;
}
} else {
bottom_diff[i * dim + label_value *
inner_num_ + j] -= 1;
++count;
}
}
}

作为loss层,很有必要测试一下,测试分两块,forward和backward,我们看看caffe中的代码。

Test_softmax_with_loss_layer.cpp

Forward测试是这样的,定义了个bottom blob data和bottom blob label,给data塞入高斯分布数据,给label塞入0~4。

blob_bottom_data_(new Blob<Dtype>(10, 5, 2, 3))
blob_bottom_label_(new Blob<Dtype>(10, 1, 2, 3))

然后分别ingore其中的一个label做5次,最后比较,代码如下。

Dtype accum_loss = 0;
for (int label = 0; label < 5; ++label) {
layer_param.mutable_loss_param()->set_ignore_label(label);
layer.reset(new
SoftmaxWithLossLayer<Dtype>(layer_param));
layer->SetUp(this->blob_bottom_vec_,
this->blob_top_vec_);
layer->Forward(this->blob_bottom_vec_, this->blob_top_vec_);
accum_loss +=
this->blob_top_loss_->cpu_data()[0];
}
// Check that each label was included all but
once.
EXPECT_NEAR(4 * full_loss, accum_loss, 1e-4);

至于backwards,直接套用checker.CheckGradientExhaustive就行,它自己会利用数值微分的方法和你写的backwards来比较精度。

TYPED_TEST(SoftmaxWithLossLayerTest,
TestGradientIgnoreLabel) {
typedef typename TypeParam::Dtype Dtype;
LayerParameter layer_param;
//
labels are in {0, ..., 4}, so we'll ignore about a fifth of them
layer_param.mutable_loss_param()->set_ignore_label(0);
SoftmaxWithLossLayer<Dtype> layer(layer_param);
GradientChecker<Dtype> checker(1e-2, 1e-2, 1701);
checker.CheckGradientExhaustive(&layer, this->blob_bottom_vec_,
this->blob_top_vec_, 0);
}

原始的softmax loss非常优雅,简洁,被广泛用于分类问题。它的特点就是优化类间的距离非常棒,但是优化类内距离时比较弱。

鉴于此,就有了很多对softmax loss的改进,下面一一道来。

 

02 weighted softmax loss【1】

这第一个改进就是weighted,怎么说?假如我们是一个分类问题,只有两类,但是两类的样本数目差距非常之大。比如边缘检测问题,这个时候,明显边缘像素的重要性是比非边缘像素大的,此时可以针对性的对样本进行加权。

wc就是这个权重,像刚才所说,c=0代表边缘像素,c=1代表非边缘像素,则我们可以令w0=1,w1=0.001,即加大边缘像素的权重。

当然,这个权重,我们还可以动态地计算让其自适应。

具体的反向公式推导,就跟上面差不多不再赘述,详细的实现我会在git中给出代码。【1】中用了weighted sigmoid_cross_entropy_loss,原理类似。

固定权重的fixed softmax loss和自适应权重的adapted softmax loss大家可以去git中自行查看。

 

03 soft softmax loss【2】

首先我们看下面的式子。

当T=1时,就是softmax的定义,当T>1,就称之为soft softmax,T越大,因为Zk产生的概率差异就会越小。文【2】中提出这个是为了迁移学习,生成软标签,然后将软标签和硬标签同时用于新网络的学习。

为什么要想到这么用,这是因为当训练好一个模型之后,模型为所有的误标签都分配了很小的概率;然而实际上对于不同的错误标签,其被分配的概率仍然可能存在数个量级的悬殊差距。这个差距,在softmax中直接就被忽略了,但这其实是一部分有用的信息。

文章的做法是先利用softmaxloss训练获得一个大模型,然后基于大模型的softmax输出结果获取每一类的概率,将这个概率,作为小模型训练时soft target的label。

 

04 Large-Margin Softmax Loss【3】

这是文【3】中提出的loss,被称为L-Softmax loss。我们先从一张图来理解下softmax loss,这张图显示的是不同softmax loss和L-Softmax loss学习到的cnn特征分布。第一列就是softmax,第2列是L-Softmax loss在参数m取不同值时的分布。通过可视化特征可知学习到的类间的特征是比较明显的,但是类内比较散。而large-margin softmax loss则类内更加紧凑,怎么做到的呢?

先看一下loss的定义形式如下。

由于 zk 是全连接层的输出,所以它可以写成

的形式,将内积更具体的表现出来,就是

我们看二分类的情况,对于属于第1类的样本,我们希望

如果我们对它提出更高的要求呢?由于cos函数在0~PI区间是递减函数,我们将要求改为

其中m>=1,

在这个条件下,原始的softmax条件仍然得到满足。

我们看下图,如果W1=W2,那么满足条件2,显然需要θ1与θ2之间的差距变得更大,原来的softmax的decision boundary只有一个,而现在类别1和类别2的decision boundary不相同,这样类间的距离进一步增加,类内更近紧凑。

更具体的定义如下:

L-Softmax loss中,m是一个控制距离的变量,它越大训练会变得越困难,因为类内不可能无限紧凑。

作者的实现是通过一个LargeMargin全连接层+softmax loss来共同实现,可参考代码。

 

05 angular softmax loss【4】

也称A-softmax loss。它就是在large margin softmax loss的基础上添加了两个限制条件||W||=1和b=0,使得预测仅取决于W和x之间的角度θ。

上图分别比较了原softmax loss,原softmax loss添加||w||=1约束,以及在L-softmax loss基础上添加||w||=1约束的结果。

为什么要添加|w|=1的约束呢? 作者做了两方面的解释,一个是softmax loss学习到的特征,本来就依据角度有很强的区分度,另一方面,人脸是一个流形,将其特征映射到超平面表面,也可以解释。

 

06 L2-constrained softmax loss【5】

将学习的特征x归一化。作者观测到好的正面的脸,特征的L2-norm大,而特征不明显的脸,其对应的特征L2-norm小,因此提出这样的约束来增强特征的区分度。

上面式就是将其归一化到固定值α。实际训练的时候都不需要修改代码,只需要添加L2-norm层与scale层,如下图。

为什么要加这个scale层?NormFace【6】中作出了解释。

该文章指出了直接归一化权重和特征,会导致loss不能下降。因为就算是极端情况下,多类样本,令正样本|wx|=1取最大值,负样本|wx|=-1取最小值,这时候分类概率也是

当类别数n=10,p=0.45;n=1000,p=0.007。当类别数增加到1000类时,正样本最大的概率还不足0.01,而反向求导的时候,梯度=1-p,会导致一直传回去很大的loss。

所以,有必要在后面加上scale层,作者还计算出了该值的下界,具体可自行参考。

 

07 additive margin softmax loss【7】

定义如下

看明白了吧,就是把L-Softmax的乘法改成了减法,同时加上了尺度因子s。作者这样改变之后前向后向传播变得更加简单。其中W和f都是归一化过的,作者在论文中将m设为0.35。

值得注意的是,normalization是收敛到好的点的保证,同时,必须加上scale层,scale的尺度在文中被固定设置为30。

那到底什么时候需要normalization什么时候又不需要呢?这实际上依赖于图片的质量。

我们看一个公式如下

其中α就是向量x的模,它说明模值比较小的,会有更大的梯度反向传播误差系数,这实际上就相当于难样本挖掘了。不过,也要注意那些质量非常差的,模值太小可能会造成梯度爆炸的问题。

 

08 argface additive angular margin【8】

定义如下:

在定义这个loss的时候,作者干脆做了一个表把现有基于softmax loss及其改进的loss的二分类决策边界条件都列了出来。

说累了,一句话,有效。。。。

到此可以说为了改进softmax loss用尽了手段了,至于有没有用,具体效果大家去尝试吧,附上未完整的GitHub链接。

https://github.com/longpeng2008/Caffe_Long

先写到这里,后续再充实实验结果和更多原理。

 

参考文献

【1】Xie S, Tu Z.Holistically-nested edge detection[C]//Proceedings of the IEEE international conference on computer vision. 2015: 1395-1403.

【2】Hinton G,Vinyals O, Dean J. Distilling the knowledge in a neural network[J]. arXiv
preprint arXiv:1503.02531, 2015.

【3】Liu W, Wen Y,Yu Z, et al. Large-Margin Softmax Loss for Convolutional Neural
Networks[C]//ICML. 2016: 507-516.

【4】Liu W, Wen Y,Yu Z, et al. Sphereface: Deep hypersphere embedding for face
recognition[C]//The IEEE Conference on Computer Vision and Pattern Recognition
(CVPR). 2017, 1.

【5】Ranjan R, Castillo C D, Chellappa R. L2-constrained softmax loss for discriminative face verification[J]. arXiv preprint arXiv:1703.09507, 2017.

【6】Wang F, Xiang X, Cheng J, et al. NormFace: $ L_2 $ Hypersphere Embedding for Face Verification[J]. arXiv preprint arXiv:1704.06369, 2017.

【7】Wang F, Liu W,Liu H, et al. Additive Margin Softmax for Face Verification[J]. arXiv preprint arXiv:1801.05599, 2018.

【8】Deng J, Guo J, Zafeiriou S. ArcFace: Additive Angular Margin Loss for Deep Face
Recognition[J]. arXiv preprint arXiv:1801.07698, 2018.

同时,在我的知乎专栏也会开始同步更新这个模块,欢迎来交流

https://zhuanlan.zhihu.com/c_151876233

注:部分图片来自网络

—END—

感谢各位看官的耐心阅读,不足之处希望多多指教。后续内容将会不定期奉上,欢迎大家关注有三公众号 有三AI

 

 

 

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

GPT-oss:20b

图文对话
Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型,面向强推理、智能体任务以及多样化开发场景

<think>嗯,用户想了解Softmax Loss的概念和实现方式。首先,我需要回忆一下Softmax Loss在机器学习中的作用。记得Softmax函数通常用于多分类问题,它将神经网络的输出转换为概率分布。而Softmax Loss应该是结合了Softmax和交叉熵损失函数的结果。 接下来,我应该分步骤解释。首先解释Softmax函数的数学公式,确保使用正确的LaTeX格式,比如$z_i$表示输出层的第i个节点,然后通过指数函数归一化得到概率。然后,交叉熵损失的部分,如何计算真实标签和预测概率之间的差异。 然后,可能需要提到梯度下降在优化过程中的应用,因为反向传播需要计算梯度。这里可以引用参考文献中的梯度下降内容,比如引用[2]提到的逻辑回归的梯度下降,可能和Softmax的梯度有相似之处。 还要注意用户提到的实现方式,可能需要给出一个Python的示例代码,比如用NumPy实现Softmax和损失计算。要确保代码正确,比如处理数值稳定性问题,减去最大值避免指数爆炸。 用户可能想知为什么使用交叉熵而不是MSE,这时候可以比较两者的区别,比如引用[1]中的MSE损失,但指出在分类问题中交叉熵更合适。此外,可能还需要提到应用场景,比如在图像分类中的全连接层,引用[4]提到的全连接层的作用。 最后,生成相关问题的时候,要覆盖数学推导、实现细节、优化方法、与其他损失函数的对比以及应用场景。比如梯度计算、反向传播的实现、优化算法如Adam,以及与SVM的对比等。 要确保回答结构清晰,分点解释概念、数学表达、实现步骤和代码示例,并且引用相关文献。同时检查LaTeX格式是否正确,行内公式用$...$,独立公式用$$...$$,并且代码块用正确的语法高亮。</think>### Softmax Loss详解 #### 1. 概念解析 Softmax Loss是分类任务中的核心损失函数,由两部分组成: - **Softmax函数**:将神经网络输出转换为概率分布,保证输出总和为1 $$ \text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^C e^{z_j}} $$ 其中$z_i$是第$i$类输出值,$C$是类别总数 - **交叉熵损失**:衡量预测概率与真实分布的差异 $$ L = -\sum_{i=1}^C y_i \log(p_i) $$ 其中$y_i$是真实标签(one-hot编码),$p_i$是预测概率[^2] #### 2. 数学推导 假设三分类问题输出$z = [3, 1, -2]$,真实标签$y = [1,0,0]$: 1. 计算Softmax概率: $$ p_1 = \frac{e^3}{e^3 + e^1 + e^{-2}} \approx 0.88 $$ $$ p_2 = \frac{e^1}{e^3 + e^1 + e^{-2}} \approx 0.12 $$ $$ p_3 = \frac{e^{-2}}{e^3 + e^1 + e^{-2}} \approx 0.00 $$ 2. 计算交叉熵损失: $$ L = -(1\cdot \log(0.88) + 0\cdot \log(0.12) + 0\cdot \log(0.00)) \approx 0.127 $$ #### 3. Python实现 ```python import numpy as np def softmax(z): exp_z = np.exp(z - np.max(z)) # 数值稳定性优化 return exp_z / exp_z.sum(axis=0) def cross_entropy_loss(y_true, y_pred): epsilon = 1e-12 # 防止log(0) return -np.sum(y_true * np.log(y_pred + epsilon)) # 示例计算 z = np.array([3.0, 1.0, -2.0]) y_true = np.array([1, 0, 0]) probs = softmax(z) loss = cross_entropy_loss(y_true, probs) print(f"Probabilities: {probs}") # [0.88079708 0.11894285 0.00026007] print(f"Loss: {loss:.4f}") # 0.1274 ``` #### 4. 关键特性 - **梯度计算高效**:反向传播时梯度可简化为$\frac{\partial L}{\partial z_i} = p_i - y_i$[^2] - **类别竞争机制**:通过指数运算放大类间差异 - **数值稳定性**:实现时需要处理指数爆炸问题(代码中减去最大值) #### 5. 应用场景 主要用于多分类任务,常见于: - 图像分类(ImageNet分类)[^4] - 自然语言处理(词性标注) - 推荐系统(物品类别预测)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

言有三

三人行必有AI

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值