softmax和softamxLoss求导公式推导

本文详细介绍了Softmax函数及其损失函数Softmax Loss的定义,并通过数学推导展示了它们的导数计算过程,重点讨论了利用链式法则进行求导的方法,对于理解神经网络中的分类问题具有重要意义。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Softmax

定义

f(xi)=exijexj f ( x i ) = e x i ∑ j e x j

求导

df(xk)dxi=exijexj+exi1(jexj)2exi=f(xi)f(xi)2=f(xi)(1f(xi))  if k=i d f ( x k ) d x i = e x i ∑ j e x j + e x i − 1 ( ∑ j e x j ) 2 e x i = f ( x i ) − f ( x i ) 2 = f ( x i ) ( 1 − f ( x i ) )     i f   k = i

df(xk)dxi=??  if k !=i d f ( x k ) d x i = ? ?     i f   k   ! = i

Softmaxloss

定义

L(xi)=kyklogfk(xi) L ( x i ) = − ∑ k y k l o g f k ( x i ) 其中 y=(y0,y1,...,yn) y = ( y 0 , y 1 , . . . , y n ) , yi{0,1} y i ∈ { 0 , 1 } xi x i 类别描述, 比如常见的one hot encoding中,对一个样本 xi x i , y y 只有一个元素值为1,其他都是0,所以假设xi标签中只有 yi=1 y i = 1 ,则求和号可以去掉有

L(xi)=logfi(xi)=logexijexj=xi+logjexj L ( x i ) = − l o g f i ( x i ) = − l o g e x i ∑ j e x j = − x i + l o g ∑ j e x j

求导1

直接利用展开式 L(xi)=xi+logjexj L ( x i ) = − x i + l o g ∑ j e x j

dLdxi=1+exijexj=f(xi)1 d L d x i = − 1 + e x i ∑ j e x j = f ( x i ) − 1

求导2

从原始公式 L(xi)=logfi(xi) L ( x i ) = − l o g f i ( x i )

dLdxi=dLdfidfidxi=1fi(xi)f(xi)(1f(xi))=f(xi)1 d L d x i = d L d f i d f i d x i = − 1 f i ( x i ) f ( x i ) ( 1 − f ( x i ) ) = f ( x i ) − 1

PS: fi() f i ( ) 的下标似乎应该去掉???

重点

链式法则是和复合函数求导关联, f(g(x)) f ( g ( x ) ) 是复合函数, f(x)g(x) f ( x ) g ( x ) 不是符合函数

df(g(x))x=dfdgdgdx d f ( g ( x ) ) x = d f d g d g d x

d(f(x)g(x))dx=df(x)dxg(x)+dg(x)dxf(x) d ( f ( x ) g ( x ) ) d x = d f ( x ) d x g ( x ) + d g ( x ) d x f ( x )

### Softmax 函数与交叉熵损失函数求导 #### 背景介绍 Softmax 函数通常用于多分类问题中的最后一层激活函数,它能够将输入转换成概率分布形式。而交叉熵损失函数则衡量预测的概率分布与真实标签之间的差异。 #### 数学推导 对于给定的一个样本 \( \mathbf{x} \),其经过网络后的输出记作向量 \( z = (z_1, ..., z_K)^T \),其中 K 是类别数量。应用 softmax 后得到的概率分布为: \[ p_i = \frac{e^{z_i}}{\sum_{j=1}^K e^{z_j}}, i = 1,...,K \] 设真实的标签表示为独热编码的形式 \( y=(y_1,y_2,\ldots ,y_k)\in\left\{0,1\right\} ^k\) ,那么交叉熵损失可以定义如下: \[ L(\theta)= -\sum _i y_ilog(p_i)=-log(p_y), \text {where }p_y=p(y|x;\theta )=\prod_ip_i^{yi}\] 为了计算梯度下降所需的偏导数,考虑单个训练样例的情况下,针对第 k 类别的权重参数 w 的更新规则可由链式法则得出: \[ \begin{aligned} \nabla_wL &= (\partial/\partial w)L \\ &= (\partial /\partial p_k)(-\ln p_k)\cdot(\partial / \partial z_k)p_k\cdot(\partial/ \partial w)z_k\\ &=(-1/p_k)\times(e^{-z_k}/S)\times x\\ &=-(x/S)e^{-z_k}\\ &= -(x/S)p_ke^{-z_k}(1-p_k)/p_k\\ &= -xp_k(1-p_k) \end{aligned}[^1]\] 这里 S 表示分母部分即所有指数项之;\( x \)代表当前特征向量。当处理多个类时,则需累加各个类对应的贡献值来获得最终的结果。 #### 实现细节 在实际编程实现中,为了避免数值溢出或者下溢的情况发生,在计算过程中会采用一些技巧性的变换方法。比如先减去最大值再做 exp 运算,从而保证后续运算的安全性稳定性。 ```python import numpy as np def stable_softmax(z): """Compute the softmax of vector z in a numerically stable way.""" shift_z = z - np.max(z) exp_scores = np.exp(shift_z) return exp_scores / np.sum(exp_scores) def compute_loss_and_gradient(scores, labels): """ Compute cross-entropy loss and gradients. Args: scores: A matrix containing raw predictions from model. Shape should be NxD where D is num_classes. labels: True label indices for each example. Length must match N. Returns: Tuple with scalar representing average CE loss across all samples, plus gradient wrt input logits `scores`. """ n_samples = scores.shape[0] probs = stable_softmax(scores) log_likelihoods = -np.log(probs[np.arange(n_samples),labels]) avg_ce_loss = np.mean(log_likelihoods) dscores = probs.copy() dscores[np.arange(n_samples),labels] -= 1 grad_avg = dscores/n_samples return avg_ce_loss,grad_avg ``` 上述代码实现了稳定版的 softmax 计算以及相应的交叉熵损失及其反向传播所需的一阶导数矩阵。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值