softmax函数和交叉熵损失函数

最新推荐文章于 2025-10-09 22:17:25 发布

原创

最新推荐文章于 2025-10-09 22:17:25 发布 · 6.9k 阅读

6 ·

CC 4.0 BY-SA版权

本文详细介绍了在CNN中，softmax函数如何将全连接层的输出转化为概率分布，以及交叉熵损失函数作为评估标准的作用。内容包括softmax的数学公式、Python实现、导数推导过程，以及交叉熵损失函数的定义和求导过程。

在CNN中，全连接层后会加上softmax函数，并且一般用交叉熵函数作为损失函数。这篇文章主要记录softmax把CNN的输出变成概率的过程以及交叉熵如何为优化过程提供度量，并且用python实现。

softmax函数

softmax函数将一个N维向量的输入的每一维都转换成区间维（0，1）之间的一个实数，公式如下：
$p_i=\frac{e^{a_i}}{\sum_{k=1}^{N}e_k^a}$
softmax可以将全连接层的输出映射成一个概率分布，我们的训练目标是让属于第k类的样本经过softmax函数之后，第k类概率越大越好。
下面是使用python实现softmax函数：

def softmax(x):
    exps = np.exp(x)
    return exps / np.sum(exps)

由于numpy中浮点类型是有数值上的限制的，对于指数函数来说很容易打破上线返回nan。
为了避免出现nan这种情况，通常在分子和分母上同时乘一个常数C，表达式如下：
$p_j=\frac{e_{a_i}}{\sum_{k=1}^{N}e^{a_k}}=\frac{Ce^{a_i}}{C\sum_{k=1}^{N}e^{a_k}}=\frac{e^{{a_i+log(C)}}}{\sum_{k=1}^{N}e^{a_k+log(C)}}$
理论上我们可以选择任何一个值作为log(C)，但是一般我们会选择log(C)=-max(a)，通过这种方法可以使得原来非常大的指数结果变成0，避免出现nan的情况。
下面是用python实现改进后的softmax函数：

def stable_softmax(x):
    exps = np.exp(x-np.max(x))
    return exps / np.sum(exps)

softmax函数的导数推倒过程

softmax函数可以将样本输出变成概率密度函数，由于这一特性我们可以把它放到神经网络最后一层，最理想的输出就是样本类别one-hot的表现形式。我们接下来了解一下如何计算softmax函数的梯度，首先对softmax函数求导：
$\frac{\partial{p_j}}{\partial{a_j}}=\frac{\partial{\frac{e^{a_i}}{\sum_{k=1}^{N}e^{a_k}}}}{\partial{a_j}}$
根据求导法则 $f(x)=\frac{g(x)}{h(x)}$ 的导数为f′(x)=g′(x)h(x)

最低0.47元/天解锁文章