改进神经网络学习方法——交叉熵代价函数

最新推荐文章于 2022-05-16 16:43:14 发布

原创最新推荐文章于 2022-05-16 16:43:14 发布 · 662 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #深度学习

神经网络与深度学习专栏收录该内容

12 篇文章

订阅专栏

本文深入探讨了神经网络学习中交叉熵代价函数的引入原因和优势，对比了二次代价函数，揭示了交叉熵如何解决学习速度下降的问题。通过数学推导，解释了交叉熵函数关于权重和偏置的导数，展示了在多层神经网络中的应用，并讨论了在输出层使用线性神经元时的情况。此外，还介绍了交叉熵的起源，以及在logistic回归和softmax回归中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

交叉熵代价函数
改进神经网络学习方法——交叉熵代价函数
《Neural Networks and Deep Learning》 $\text{(Michael Nielsen)}$ 笔记 (三)
对二次代价函数： $C=\frac{(y-a)^{2}}{2} \qquad(1)$ $a$ 是神经元的输出，训练输入为 $x = 1, y = 0$ 我们有 $a=\sigma(z)$ ，其中 $z = w x + b$ ，使用链式法则求权重和偏置的偏导数： $\begin{aligned} \frac{\partial C}{\partial w} &=(a-y) \sigma^{\prime}(z) x=a \sigma^{\prime}(z)\qquad(2) \\ \frac{\partial C}{\partial b} &=(a-y) \sigma^{\prime}(z)=a \sigma^{\prime}(z) \qquad(3)\end{aligned}$

从上图可以看出，当神经元的输出接近 $1$ 时，曲线变得相当平，所以 $\sigma^{\prime}(z)$ 就很小，方程 $(2)$ 和 $(3)$ 也告诉我们 $\frac{\partial C} { \partial w}$ 和 $\frac{\partial C} { \partial b}$ 会非常小，这其实是学习缓慢的原因所在。
引入交叉熵代价函数

神经元的输出就是 $a=\sigma(z)$ , $z=\sum_{j} w_{j} x_{j}+b$
定义这个神经元的交叉熵代价函数：
$C=-\frac{1}{n} \sum_{x}[y \ln a+(1-y) \ln (1-a)] \qquad(4)$ 其中 $n$ 训练数据的总数，求和是在所有的训练输入 $x$ 上进行的， $y$ 是对应的目标输出。
将交叉熵看作是代价函数的两点原因：一、交叉熵是非负的。二、如果对于所有的训练输入 $x$ ，神经元实际的输出接近目标值，达到很好的正确率，那么交叉熵将接近 $0$ 。
交叉熵代价函数有一个比二次代价函数更好的特性是它避免了学习速度下降的问题。
我们将 $a=\sigma(z)$ 带入到 $(4)$ 中应用两次链式法则，得 $\begin{aligned} \frac{\partial C}{\partial w_{j}} &=-\frac{1}{n} \sum_{x}\left(\frac{y}{\sigma(z)}-\frac{(1-y)}{1-\sigma(z)}\right) \frac{\partial \sigma}{\partial w_{j}} \\ &=-\frac{1}{n} \sum_{x}\left(\frac{y}{\sigma(z)}-\frac{(1-y)}{1-\sigma(z)}\right) \sigma^{\prime}(z) x_{j} \end{aligned}$ 注： $\begin{aligned} \frac{\partial C}{\partial w_{j}} &=-\frac{1}{n} \sum \frac{\partial}{\partial w_{j}}[y \ln a+(1-y) \ln (1-a)] \\ &=-\frac{1}{n} \sum \frac{\partial}{\partial a}[y \ln a+(1-y) \ln (1-a)] \cdot \frac{\partial a}{\partial w_{j}} \\ &=-\frac{1}{n} \sum\left(\frac{y}{a}-\frac{1-y}{1-a}\right)\cdot \frac{\partial a}{\partial w_{j}} \\ &=-\frac{1}{n} \sum\left(\frac{y}{s(z)}-\frac{1-y}{1-s(z)}\right) \frac{\partial \zeta(z)}{\partial w_{j}} \\ &=-\frac{1}{n} \sum\left(\frac{y}{\zeta(z)}-\frac{1-y}{1-\zeta(z)}\right) \zeta^{\prime}(z) x_{j} \end{aligned}$ 合并结果简化成： $\frac{\partial C}{\partial w_{j}}=\frac{1}{n} \sum_{x} \frac{\sigma^{\prime}(z) x_{j}}{\sigma(z)(1-\sigma(z))}(\sigma(z)-y)$ 根据 $\sigma(z)=\frac{1} {\left(1+e^{-z}\right)}$ , $\sigma^{\prime}(z)=\sigma(z)(1-\sigma(z))$ ，最终形式是： $\frac{\partial C}{\partial w_{j}}=\frac{1}{n} \sum_{x} x_{j}(\sigma(z)-y) \qquad(5)$ 类似地得到： $\frac{\partial C}{\partial b}=\frac{1}{n} \sum_{x}(\sigma(z)-y) \qquad(6)$ 从方程 $(5)$ 和 $(6)$ ，我们看到了权重学习的速度受到 $\sigma(z)-y$ ，也就是输出中的误差的控制。更大的误差，更快的学习速度。 $\sigma^{\prime}(z)$ 被约掉了，避免了像在二次代价函数在 $\sigma^{\prime}(z)$ 导致的学习缓慢。
推广到有很多神经元的多层神经网络，特别地，假设 $y=y_{1}, y_{2}, \ldots$ 是输出神经元上的目标值，而 $a_{1}^{L}, a_{2}^{L}, \ldots$ 是实际输出值，那么我们定义如下的交叉熵 $C=-\frac{1}{n} \sum_{x} \sum_{j}\left[y_{j} \ln a_{j}^{L}+\left(1-y_{j}\right) \ln \left(1-a_{j}^{L}\right)\right]$ 这里需要对所有的输出神经元进行求和 $\sum_{j}$
多层神经网络的二次代价函数关于输出层的权重的偏导数是； $\frac{\partial C}{\partial w_{j k}^{L}}=\frac{1}{n} \sum_{x} a_{k}^{L-1}\left(a_{j}^{L}-y_{j}\right) \sigma^{\prime}\left(z_{j}^{L}\right)$ 项 $\sigma^{\prime}\left(z_{j}^{L}\right)$ 会在一个输出神经元困在错误值时导致学习速度的下降
交叉熵代价函数关于输出层的权重的偏导数为 $\frac{\partial C}{\partial w_{j k}^{L}}=\frac{1}{n} \sum_{x} a_{k}^{L-1}\left(a_{j}^{L}-y_{j}\right)$ 这里 $\sigma^{\prime}\left(z_{j}^{L}\right)$ 消失了，交叉熵避免了学习的缓慢问题
在输出层使用线性神经元时使用二次代价函数
当输出层的神经元都是线性神经元，输出不再是 $S$ 型函数的作用结果，而是 $a_{j}^{L}=z_{j}^{L}$ ，单个样本的输出误差是 $\delta^{L}=a^{L}-y$
关于输出层的权重和偏置的偏导数为： $\frac{\partial C}{\partial w_{j k}^{L}}=\frac{1}{n} \sum_{x} a_{k}^{L-1}\left(a_{j}^{L}-y_{j}\right)$ $\frac{\partial C}{\partial b_{j}^{L}}=\frac{1}{n} \sum_{x}\left(a_{j}^{L}-y_{j}\right)$ 上式表明如果输出神经元是线性的那么二次代价函数不再会导致学习速度下降的问题。在此情形下，二次代价函数是一种合适的选择。
交叉熵源自哪里？
研究发现学习速度变慢主要原因在于 $\sigma^{\prime}(z)$ ，我们会想到选择一个不包含 $\sigma^{\prime}(z)$ 的代价函数的导数，
所以这个时候一个训练样本其代价满足： $\frac{\partial C}{\partial w_{j}}=x_{j}(a-y)$ $\frac{\partial C}{\partial b}=(a-y)$ 此时初始误差越大，神经元学习的越快
由链式法则我们有： $\frac{\partial C}{\partial b}=\frac{\partial C}{\partial a} \sigma^{\prime}(z)$ 使用 $\sigma^{\prime}(z)=\sigma(z)(1-\sigma(z))=a(1-a)$ ，上式变为： $\frac{\partial C}{\partial b}=\frac{\partial C}{\partial a} a(1-a)$ 对比公式 $\frac{\partial C}{\partial b}=(a-y)$ ，有 $\frac{\partial C}{\partial a}=\frac{a-y}{a(1-a)}$ 对此方程关于 $a$ 积分，得到 $\ln a+(1-y) \ln (1-a)]+\text { constant }$ $\text { constant }$ 为积分常量，对所有训练样本平均得到： $C=-\frac{1}{n} \sum_{x}[y \ln a+(1-y) \ln (1-a)]+\text { constant }$ 从信息论的角度，交叉熵衡量我们学习到的正确值的平均起来的不确定性

交叉熵损失函数的由来及交叉熵对参数的导数的推导
交叉熵损失函数的由来
设有 $m$ 个样本数据， $\left(x^{(i)}, y^{(i)}\right)$ 表示第组数据及其对应的类别标记。其中 $x^{(i)}=\left(1, x_{1}^{(i)}, x_{2}^{(i)}, \ldots, x_{p}^{(i)}\right)^{T}$ 为 $p + 1$ 维向量（考虑了偏置项）， $y^{(i)}$ 为表示类别的一个数：
$\text{logistic}$ 回归（是非问题）中， $y^{(i)}$ 取 $0$ 或 $1$
$\text{softmax}$ 回归（多分类问题）中， $y^{(i)}$ 取 $\ldots \mathrm{k}$ 中的一个表示类别标号的一个数（假设共有 $k$ 类）
$\text{logistic}$ 回归中，输入样本数据 $x^{(i)}=\left(1, x_{1}^{(i)}, x_{2}^{(i)}, \ldots, x_{p}^{(i)}\right)^{T}$ ，模型的参数为 $\theta=\left(\theta_{0}, \theta_{1}, \theta_{2}, \dots, \theta_{p}\right)^{T}$ ，因此有 $\theta^{T} x^{(i)} :=\theta_{0}+\theta_{1} x_{1}^{(i)}+\cdots+\theta_{p} x_{p}^{(i)}$ 假设函数 $(\text{hypothesis function})$ 定义为: $h_{\theta}\left(x^{(i)}\right)=\frac{1}{1+e^{-\theta^{T} x^{(i)}}}$ 由于 $\text{logistic}$ 回归问题是 $0 - 1$ 二分类问题，因此有 $P\left(\hat{y}^{(i)}=1 | x^{(i)} ; \theta\right)=h_{\theta}\left(x^{(i)}\right)$ $P\left(\hat{y}^{(i)}=0 | x^{(i)} ; \theta\right)=1-h_{\theta}\left(x^{(i)}\right)$ 对上式取对数： $\log P\left(\hat{y}^{(i)}=1 | x^{(i)} ; \theta\right)=\log h_{\theta}\left(x^{(i)}\right)=\log \frac{1}{1+e^{-\theta^{T} x^{(i)}}}$ $\log P\left(\hat{y}^{(i)}=0 | x^{(i)} ; \theta\right)=\log \left(1-h_{\theta}\left(x^{(i)}\right)\right)=\log \frac{e^{-\theta^{T} x^{(i)}}}{1+e^{-\theta^{T} x^{(i)}}}$ 对于第 $i$ 组样本，假设函数正确的组合对数概率为： $I\left\{y^{(i)}=1\right\} \log P\left(\hat{y}^{(i)}=1 | x^{(i)} ; \theta\right)+I\left\{y^{(i)}=0\right\} \log P\left(\hat{y}^{(i)}=0 | x^{(i)} ; \theta\right)$ $\begin{aligned}=y^{(i)} \log P\left(\hat{y}^{(i)}=\right.& 1 | x^{(i)} ; \theta )+\left(1-y^{(i)}\right) \log P\left(\hat{y}^{(i)}=0 | x^{(i)} ; \theta\right) \\=& y^{(i)} \log \left(h_{\theta}\left(x^{(i)}\right)\right)+\left(1-y^{(i)}\right) \log \left(1-h_{\theta}\left(x^{(i)}\right)\right) \end{aligned}$ 其中， $I\left\{y^{(i)}=1\right\}$ 和 $I\left\{y^{(i)}=0\right\}$ 是示性函数，这样对于一共 $m$ 组样本，可以得到整体训练样本的表现能力： $\sum_{i=1}^{m} y^{(i)} \log \left(h_{\theta}\left(x^{(i)}\right)\right)+\left(1-y^{(i)}\right) \log \left(1-h_{\theta}\left(x^{(i)}\right)\right)$ 由以上表征正确的概率含义可知，我们希望其值越大，模型对数据的表达能力越好。而我们在参数更新或衡量模型优劣时是需要一个能充分反映模型表现误差的损失函数 $(L o s s f u n c t i o n)$ 或者代价函数 $(C o s t f u n c t i o n)$ 的，而且我们希望损失函数越小越好。由这两个矛盾，那么我们不妨领代价函数为上述组合对数概率的相反数： $J(\theta)=-\frac{1}{m} \sum_{i=1}^{m} y^{(i)} \log \left(h_{\theta}\left(x^{(i)}\right)\right)+\left(1-y^{(i)}\right) \log \left(1-h_{\theta}\left(x^{(i)}\right)\right)$ 上式即为交叉熵损失函数。
交叉熵损失函数的求导推导：
已知 $J(\theta)=-\frac{1}{m} \sum_{i=1}^{m} y^{(i)} \log \left(h_{\theta}\left(x^{(i)}\right)\right)+\left(1-y^{(i)}\right) \log \left(1-h_{\theta}\left(x^{(i)}\right)\right)$ 由上面公式： $\log h_{\theta}\left(x^{(i)}\right)=\log \frac{1}{1+e^{-\theta^{T} x^{(i)}}}=-\log \left(1+e^{-\theta^{T} x^{(i)}}\right)$ $\begin{aligned} & \log \left(1-h_{\theta}\left(x^{(i)}\right)\right)=\log \left(1-\frac{1}{1+e^{-\theta^{T} x^{(i)}}}\right) \;=\log \left(\frac{e^{-\theta^{T} x^{(i)}}}{1+e^{-\theta^{T} x^{(i)}}}\right) \\=& \log \left(e^{-\theta^{T} x^{(i)}}\right)-\log \left(1+e^{-\theta^{T} x^{(i)}}\right)=-\theta^{T} x^{(i)}-\log \left(1+e^{-\theta^{T} x^{(i)}}\right) \end{aligned}$ $J(\theta)=-\frac{1}{m} \sum_{i=1}^{m}\left[-y^{(i)}\left(\log \left(1+e^{-\theta^{T} x^{(i)}}\right)\right)+\left(1-y^{(i)}\right)\left(-\theta^{T} x^{(i)}-\log \left(1+e^{-\theta^{T} x^{(i)}}\right)\right)\right]$ $\begin{aligned} &=-\frac{1}{m} \sum_{i=1}^{m}\left[y^{(i)} \theta^{T} x^{(i)}-\theta^{T} x^{(i)}-\log \left(1+e^{-\theta^{T} x^{(i)}}\right)\right] \\ &=-\frac{1}{m} \sum_{i=1}^{m}\left[y^{(i)} \theta^{T} x^{(i)}-\log e^{\theta^{T} x^{(i)}}-\log \left(1+e^{-\theta^{T} x^{(i)}}\right)\right]\\ &=-\frac{1}{m} \sum_{i=1}^{m}\left[y^{(i)} \theta^{T} x^{(i)}-\left(\log e^{\theta^{T} x^{(i)}}+\log \left(1+e^{-\theta^{T} x^{(i)}}\right)\right)\right] \\ &=-\frac{1}{m} \sum_{i=1}^{m}\left[y^{(i)} \theta^{T} x^{(i)}-\log \left(1+e^{\theta^{T} x^{(i)}}\right)\right] \end{aligned}$ 计算 $J(\theta)$ 对第 $j$ 个参数分量 $\theta_j$ 求偏导： $\frac{\partial}{\partial \theta_{j}} J(\theta)=\frac{\partial}{\partial \theta_{j}}\left(\frac{1}{m} \sum_{i=1}^{m}\left[\log \left(1+e^{\theta^{T} x^{(i)}}\right)-y^{(i)} \theta^{T} x^{(i)}\right]\right)$ $\begin{aligned}=& \frac{1}{m} \sum_{i=1}^{m}\left[\frac{\partial}{\partial \theta_{j}} \log \left(1+e^{\theta^{T} x^{(i)}}\right)-\frac{\partial}{\partial \theta_{j}}\left(y^{(i)} \theta^{T} x^{(i)}\right)\right] \\=& \frac{1}{m} \sum_{i=1}^{m}\left(\frac{x_{j}^{(i)} e^{\theta^{T} x^{(i)}}}{1+e^{\theta^{T} x^{(i)}}}-y^{(i)} x_{j}^{(i)}\right) \\ &=\frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)} \end{aligned}$ 这就是交叉熵对参数的导数： $\frac{\partial}{\partial \theta_{j}} J(\theta)=\frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)}$ 交叉熵损失函数的由来及交叉熵对参数的导数的推导参考自：http://blog.youkuaiyun.com/jasonzzj/article/details/52017438