李宏毅机器学习5(P9)_softmax 李宏毅-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_40981899/article/details/90636376

本文主要围绕逻辑回归（LR）和Softmax展开。先推导了LR损失函数，通过假设数据来自后验概率，将其转换为交叉熵形式以缩小分布差距；接着学习LR梯度下降，得出更新w和b的公式；还介绍了Softmax原理，其输出用于估计后验概率，并给出了Softmax损失函数及梯度下降相关内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

一.推导LR损失函数
二.学习LR梯度下降
三.利用代码描述梯度下降(选做)
四.Softmax原理
五.softmax损失函数
六.softmax梯度下降

一.推导LR损失函数

逻辑回归的函数是
$f_{w, b}(x)=\sigma\left(\sum_{i} w_{i} x_{i}+b\right)$
output是在0到1之间。
我们先进行一个假设，假设上面的数据都是来自于Posterior probability（后验概率）， $f_{w, b}(x)=P_{w, b}\left(C_{1} | x\right)$
L（w，b）就是这个Posterior probability产生这些数据的概率，然后我们看看哪个w和b是能让这个概率最大。
$b)=f_{w, b}\left(x^{1}\right) f_{w, b}\left(x^{2}\right)\left(1-f_{w, b}\left(x^{3}\right)\right) \cdots f_{w, b}\left(x^{N}\right)$
也就是找到一个w和b让L(w,b)最大： $w^{*}, b^{*}=\arg \max _{w, b} L(w, b)$

通过等式变换
$b)=f_{w, b}\left(x^{1}\right) f_{w, b}\left(x^{2}\right)\left(1-f_{w, b}\left(x^{3}\right)\right) \cdots f_{w, b}\left(x^{N}\right)$
转换到
$-\ln L(w, b)=\ln f_{w, b}\left(x^{1}\right)+\ln f_{w, b}\left(x^{2}\right)+\ln \left(1-f_{w, b}\left(x^{3}\right)\right) \cdots$
$\widehat{y}^{n}$ 是class 1的时候为1，class 2的时候为0
$-\ln L(w, b)=\sum_{n} [\hat{y}^{n} \ln f_{w, b}\left(x^{n}\right)+\left(1-\hat{y}^{n}\right) \ln \left(1-f_{w, b}\left(x^{n}\right)\right)]$
我们可以这样看
Distribution p $p(x=1)=\hat{y}^{n}$ ， $p(x=0)=1-\hat{y}^{n}$
Distribution q $q(x=1)=f\left(x^{n}\right)$ , $q(x=0)=1-f\left(x^{n}\right)$
我们就是通过变换得到这个形式，这个就是cross entropy，左边是label p，右边是预测 q，然后尽可能缩小这两个分布的差距 $q)=-\sum_{x} p(x) \ln (q(x))$ 。

二.学习LR梯度下降

通过上面的推导，我们知道了逻辑回归的损失函数公式，但是我们应该如何通过这个函数来更新w和b呢。
$\frac{-\ln L(w, b)}{\partial w_{i}}=\sum_{n} - [\hat{y}^{n} \frac{\ln f_{w, b}(x^{n})}{\partial w_{i}}+\left(1-\hat{y}^{n}\right) \frac{\ln \left(1-f_{w, b}\left(x^{n}\right))\right.}{\partial w_{i}}]$
我们拆开分解：
前面的：
$\frac{\partial \ln f_{w, b}(x)}{\partial w_{i}}=\frac{\partial \ln f_{w, b}(x)}{\partial z} \frac{\partial z}{\partial w_{i}}$

$\frac{\partial z}{\partial w_{i}}=x_{i}$
而其中的 $\frac{\partial \ln f_{w, b}(x)}{\partial z}$ 是
$\frac{\partial \ln \sigma(z)}{\partial z}=\frac{1}{\sigma(z)} \frac{\partial \sigma(z)}{\partial z}=(1-\sigma(z))$
同理，后面的：
$\frac{\partial \ln \left(1-f_{w, b}(x)\right)}{\partial w_{i}}=\frac{\partial \ln \left(1-f_{w, b}(x)\right)}{\partial z} \frac{\partial z}{\partial w_{i}}$
$\frac{\partial z}{\partial w_{i}}=x_{i}$
$\frac{\partial \ln (1-\sigma(z))}{\partial z}=-\frac{1}{1-\sigma(z)} \frac{\partial \sigma(z)}{\partial z}= - \sigma(z)$
所以总结起来就是：
$\frac{-\ln L(w, b)}{\partial w_{i}} =\sum_{n} - [\hat{y}^{n} \frac{\ln f_{w, b}(x^{n})}{\partial w_{i}}+\left(1-\hat{y}^{n}\right) \frac{\ln \left(1-f_{w, b}\left(x^{n}\right))\right.}{\partial w_{i}}]$
$=\sum_{n} - [\hat{y}^n(1-f_{w,b}(x^n))x^n_i - (1 - \hat{y}^n)f_{w,b}(x^n)x^n_i ]$
$=\sum_{n} - [\hat{y}^n - \hat{y}^n f_{w,b}(x^n) - f_{w,b}(x^n) + \hat{y}^n f_{w,b}(x^n) ]x^n_i$
$=\sum_{n} -(\hat{y}^n - f_{w,b}(x^n))x^n_i$
最后总结起来就是这样
$w_{i} \leftarrow w_{i}-\eta \sum_{n}-\left(\hat{y}^{n}-f_{w, b}\left(x^{n}\right)\right) x_{i}^{n}$

三.利用代码描述梯度下降(选做)

四.Softmax原理

$\begin{array}{ll}{C_{1} : w^{1}, b_{1}} & {z_{1}=w^{1} \cdot x+b_{1}} \\ {C_{2} : w^{2}, b_{2}} & {z_{2}=w^{2} \cdot x+b_{2}} \\ {C_{3} : w^{3}, b_{3}} & {z_{3}=w^{3} \cdot x+b_{3}}\end{array}$
softmax做的就是事情就是对z进行exponential(指数化)，将exponential的结果相加，再分别用exponential的结果除以相加的结果。原本 $z_1,z_2,z_3$ 原本可以是任何值，但是做完softmax之后，就把输出都限制在0到1之间，而且概率和是1。
在这里插入图片描述
如这个展示图， $y_1$ 表示x属于类别1的概率：0.88， $y_2$ 表示x属于类别2的概率：0.12， $y_3$ 表示x属于类别3的概率：0。
Softmax的输出就是用来估计后验概率（Posterior Probability）

五.softmax损失函数

这个代价函数类似于上面的逻辑回归，一样是用交叉熵。剩下的就是基本带进去
$I\{\text {expression}\}=\left\{\begin{array}{ll}{0} & {\text { if expression }=\text { false }} \\ {1} & {\text { if expression }=\text {true}}\end{array}\right.$
$J(\theta)=-\frac{1}{m}\left[\sum_{i=1}^{m} \sum_{j=1}^{k} I\left\{y^{(i)}=j\right\} \log \frac{e^{\theta_{j}^{T} \mathbf{x}^{(i)}}}{\sum_{l=1}^{k} e^{\theta T \mathbf{x}^{(i)}}}\right]$
类别对应的，才纳入倒损失函数中去。