大白话5分钟带你走进人工智能-第十八节逻辑回归之交叉熵损失函数梯度求解过程(3)

最新推荐文章于 2025-02-21 17:12:36 发布

原创最新推荐文章于 2025-02-21 17:12:36 发布 · 1.3k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#交叉熵损失函数梯度

大白话人工智能机器学习算法专栏收录该内容

34 篇文章

订阅专栏

本文深入探讨逻辑回归中交叉熵损失函数的梯度求解过程，解释如何通过梯度下降法找到使损失函数最小化的参数θ。文章详细介绍了求解步骤，包括随机初始化权重、求解梯度、泰勒展开近似及收敛判断，重点在于推导交叉熵损失函数的导数，最终得出逻辑回归的导函数。

第十八节逻辑回归之交叉熵损失函数梯度求解过程(2)

上一节中，我们讲解了交叉熵损失函数的概念，目标是要找到使得损失函数最小的那组θ，也就是l(θ)最大，即预测出来的结果在训练集上全部正确的概率最大。那我们怎么样找到我们的最优解呢？上节中提出用梯度下降法求解，本节的话我们对其具体细节展开。

先来看下我们用梯度下降求解最优解，想要通过梯度下降优化L(θ)到最小值需要几步？

第一步，随机产生w，随机到0附近会比较好一点，w随机到0附近就意味着不管用L1还是L2正则的时候，可以使w的整体比较小。L1和L2正则同样可以用到逻辑回归里面去，来使得逻辑回归的损失函数obj相对比较小，然后使得我们模型具有推广能力和泛化能力。其实任何算法，都可以去使用L1和L2来提高模型的泛化能力，本质上就是减少模型的复杂度。所以以后未来碰到任何的算法，w在随机的过程当中，我们最好用期望为0的正态分布，来随机产生n+1个w。

第二步是求梯度，对于逻辑回归来说，如果用SGD求梯度，我们得用交叉熵的损失函数来得到它的导函数，然后才可以知道某一个值的时候它的梯度是多少。

第三步是 $w k+1=w k+\lambda *-\frac{\partial L(W k)}{\partial(w k)}$ ，它本质是一阶泰勒展开近似。

第四步是判断收敛，其实就是第二第三步循环往复来执行。

四步里面第二步求解交叉熵损失函数的导函数求得其梯度是最关键的。我们对其展开来说。我们再来看下我们的目标函数：

$J_{\log }(w)=\sum_{i=1}^{m}-y_{i} \log \left(p\left(x_{i} ; w\right)\right)-\left(1-y_{i}\right) \log \left(1-p\left(x_{i} ; w\right)\right)$

把负号提出来再加上1/m就是：

$J_{\log }(w)=-\sum_{i=1}^{m}y_{i} \log \left(p\left(x_{i} ; w\right)\right)+\left(1-y_{i}\right) \log \left(1-p\left(x_{i} ; w\right)\right)$

至于求导梯度时为什么要加-1/m，可以参考第六节梯度下降之从单元函数理解梯度下降过程(1)

我们要对损失函数里每个w求偏导，也就是对每一部分求偏导。w在pi里面，pi=1/（1+e-w^Tx），也可写成h(θ)x。上面可拆成左右两部分求导，先对左半部分yi*log pi求导，我们是对wj即(θj)求偏导，跟yi没关系，因为(lnx)'=1/x ，并且log pi是复合函数，需要对里外分别求导，即：

$y_{i} \left(\log p_{i}\right)^{\prime}=y_{i} \frac{1}{p_{i}} p_{i}^{\prime}=y_{i} \frac{1}{h_{\theta}\left(x_{i}\right)} \frac{\delta}{\delta_{\theta_{j}}} h_{\theta}\left(x_{i}\right)$

后半部分同理复合函数求导，

即：

$(\left(1-y_{i}\right) \log \left(1-p\left(x_{i} ; w\right)\right))^{\prime}=\left(1-y_{i}\right) (\log \left(1-p\left(x_{i} ; w\right)\right))^{\prime}=$$\left(1-y_{i}\right)\frac{1}{\left(1-p\left(x_{i} ; w\right)\right))} \left(1-p\left(x_{i} ; w\right)\right)^{\prime}$

又因为 $\left(1-p\left(x_{i} ; w\right)\right)^{\prime}$ 求导结果为 $\left(1-p\left(x_{i} ; w\right)\right)^{\prime}=-p\left(x_{i} ; w\right)\right)^{\prime}$ 。而p(xi;w) 实际上就是关于θ的函数，可以写成h(θ)x。所以

$$$\left(1-y_{i}\right)\frac{1}{\left(1-p\left(x_{i} ; w\right)\right))} \left(1-p\left(x_{i} ; w\right)\right)^{\prime}=-\left(1-y_{i}\right) \frac{1}{1-h_{\theta}\left(x_{i}\right)} \frac{\delta}{\delta_{\theta_{j}}} h_{\theta}\left(x_{i}\right)$

左右两部分求导结合起来后损失函数表示成：

$\frac{\delta}{\delta_{\theta_{j}}} J(\theta)=-\frac{1}{m} \sum_{i=1}^{m}\left(y_{i} \frac{1}{h_{\theta}\left(x_{i}\right)} \frac{\delta}{\delta_{\theta_{j}}} h_{\theta}\left(x_{i}\right)-\left(1-y_{i}\right) \frac{1}{1-h_{\theta}\left(x_{i}\right)} \frac{\delta}{\delta_{\theta_{j}}} h_{\theta}\left(x_{i}\right)\right)$

hθ(x)=1/（1+e-θ^Tx），是关于θ^Tx的Sigmoid函数.所以可以用g（θTx）表示，所以损失函数推导部分又可以写成：

$\frac{\delta}{\delta_{\theta_{j}}} J(\theta)=-\frac{1}{m} \sum_{i=1}^{m}\left(y_{i} \frac{1}{g\left(\theta^{T} x_{i}\right)}-\left(1-y_{i}\right) \frac{1}{1-g\left(\theta^{T} x_{i}\right)}\right) \frac{\delta}{\delta_{\theta_{j}}} g\left(\theta^{T} x_{i}\right)$

又因为（1/x）'=-1/x2，（ex）'= ex，（-z）'=-1，所以 $\frac{\delta}{\delta_{\theta_{j}}} g\left(\theta^{T} x_{i}\right)$ 实际上展开就是：

$\begin{aligned} \\ & \left(\frac{1}{1+e^{-z}}\right)^{\prime}\\ &=-\frac{1}{(1+e^{-z})^{2}}*(1+e^{-z})^{\prime} \\ &=-\frac{1}{(1+e^{-z})^{2}}*(e^{-z})^{\prime}\\ &=-\frac{1}{(1+e^{-z})^{2}}*(e^{-z})*(-z)^{\prime}\\ &=\frac{1}{(1+e^{-z})^{2}}*(e^{-z})*(z)^{\prime}\end{aligned}$

好吧看到这是不是很晕眩，实际上耐心下来，跟着我的思路去走，就会很好理解上面的公式。我们继续吧，很快就结束了，也快大功告成了。我们对 $\frac{\delta}{\delta_{\theta_{j}}} g\left(\theta^{T} x_{i}\right)$ 上面展开后的公式继续展开，整理即：

$\begin{aligned} \\ & \frac{1}{(1+e^{-z})^{2}}*(e^{-z})*(z)^{\prime}\\ &=\frac{1}{1+e^{-z}}*\frac{e^{-z}}{1+e^{-z}}*(z)^{\prime} \\ &=\frac{1}{1+e^{-z}}*(\frac{1+e^{-z}}{1+ e^{-z}}-\frac{1}{1+e^{-z}})*(z)^{\prime}\end{aligned}$

因为z就是θTx,hθ(x)=1/（1+e-θ^Tx）是关于θ^Tx的Sigmoid函数.同样可以用g（θTx）表示。所以上面 $\frac{\delta}{\delta_{\theta_{j}}} g\left(\theta^{T} x_{i}\right)$ 展开后的公式最后可以表示成：

$\begin{aligned} \\ &\frac{1}{1+e^{-z}}*(\frac{1+e^{-z}}{1+ e^{-z}}-\frac{1}{1+e^{-z}})*(z)^{\prime} \\ &\\ &=g\left(\theta^{T} x_{i}\right)\left(1-g\left(\theta^{T} x_{i}\right)\right) \frac{\delta}{\delta_{\theta_{j}}} \theta^{T} x_{i}\end{aligned}$

所以损失函数可以推导成：

$\begin{aligned} &\frac{\delta}{\delta_{\theta_{j}}} J(\theta)=-\frac{1}{m} \sum_{i=1}^{m}\left(y_{i} \frac{1}{h_{\theta}\left(x_{i}\right)} \frac{\delta}{\delta_{\theta_{j}}} h_{\theta}\left(x_{i}\right)-\left(1-y_{i}\right) \frac{1}{1-h_{\theta}\left(x_{i}\right)} \frac{\delta}{\delta_{\theta_{j}}} h_{\theta}\left(x_{i}\right)\right)\\ &\\ & \qquad \quad=-\frac{1}{m} \sum_{i=1}^{m}\left(y_{i} \frac{1}{g\left(\theta^{T} x_{i}\right)}-\left(1-y_{i}\right) \frac{1}{1-g\left(\theta^{T} x_{i}\right)}\right) \frac{\delta}{\delta_{\theta_{j}}} g\left(\theta^{T} x_{i}\right)\\ &\\ & \qquad \quad=-\frac{1}{m} \sum_{i=1}^{m}\left(y_{i} \frac{1}{g\left(\theta^{T} x_{i}\right)}-\left(1-y_{i}\right) \frac{1}{1-g\left(\theta^{T} x_{i}\right)}\right) g\left(\theta^{T} x_{i}\right)\left(1-g\left(\theta^{T} x_{i}\right)\right) \frac{\delta}{\delta_{\theta_{j}}} \theta^{T} x_{i}\end{aligned}$

而θTx就是θ1x1+θ2x2+……+θjxj+……+θnxn，如果对θj求偏导，只剩xj。即 $\frac{\delta}{\delta_{\theta_{j}}} \theta^{T} x_{i}=x_{i}^{j}$ 。

xij这种表达方式大家应该已经习惯了，因为i代表第i行，j代表第j列，因为损失函数前面有一个加和符号，所以它实际上还是每一行的事。接下来就是把损失函数式子拆开，正负相消即：

$\begin{aligned} &\frac{\delta}{\delta_{\theta_{j}}} J(\theta)=-\frac{1}{m} \sum_{i=1}^{m}\left(y_{i} \frac{1}{g\left(\theta^{T} x_{i}\right)}-\left(1-y_{i}\right) \frac{1}{1-g\left(\theta^{T} x_{i}\right)}\right) g\left(\theta^{T} x_{i}\right)\left(1-g\left(\theta^{T} x_{i}\right)\right) \frac{\delta}{\delta_{\theta_{j}}} \theta^{T} x_{i}\\ &\\ & \qquad \quad=-\frac{1}{m} \sum_{i=1}^{m}\left(y_{i}\left(1-g\left(\theta^{T} x_{i}\right)\right)-\left(1-y_{i}\right) g\left(\theta^{T} x_{i}\right)\right) x_{i}^{j}\\ &\\ & \qquad \quad=-\frac{1}{m} \sum_{i=1}^{m}\left(y_{i}-g\left(\theta^{T} x_{i}\right)\right) x_{i}^{j}\\ &\\ & \qquad \quad=\frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x_{i}\right)-y_{i}\right) ) x_{i}^{j}\end{aligned}$

最后一步是把前面的负号放进去得到的。到此我们推导成功，擦擦汗，真不容易!!!。它就是逻辑回归的导函数，你会发现它推导之后和mse的导函数是一样的，都是(hθ(x)-y)*xj这种形式。只不过在多元线性回归的时候，hθ(x)是wTx，在逻辑回归里面，hθ(x)是1/（1+e-θTx）。hθ(x)不一样，但是整体形式一样。所以这也是它叫逻辑回归的一个很大原因。

有了逻辑回归损失函数推出来的导函数，我们用梯度下降求解的时候，我们就可以把第三步中的 $-\frac{\partial L(W k)}{\partial(w k)}$ 这一部分算出来了。只要给我一组w，或者θ，w0一直到wn。有了θ，x，y，xj，我就可以把导数求出来。有了导数，继而求得梯度。然后就可以用梯度下降公式去求解了。