softmax函数的定义及求导

最新推荐文章于 2025-06-15 08:37:05 发布

原创最新推荐文章于 2025-06-15 08:37:05 发布 · 9.8k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#softmax #深度学习 #求导 #偏微分

心得专栏收录该内容

28 篇文章

订阅专栏

本文介绍了深度学习中Softmax函数的应用与原理，包括如何将模型输出转化为概率分布，以及如何对Softmax函数进行求导。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文中 $(x_0, x_1, ..., x_m)$ 代表一个向量，也就是一个 $m$ 行1列的矩阵。

在监督式的深度学习中，输入通常是一个向量，用 $x$ 表示，输出 $y$ 则可以分为多种情况。

标量。 $y$ 表示输入 $x$ 属于某一类别的概率。
向量。此时输入 $x$ 可能属于多个类别。 $y=(y_0, y_1, ..., y_n)$ 。元素 $y_i$ 代表向量属于类别 $i$ 的可能性。数值越大，可能性越高。但是，深度学习模型输出的 $y_i$ 不必然是介于0和1之间的概率值， $softmax$ 函数的作用就是对向量进行归一化，生成概率值。
$softmax$ 函数的作用如下。

$s o f t m a x ((y 0, y 1, . . ., y n)) = (y 0 Σ n i = 0 y i, . . ., y n Σ n i = 0 y i)$ $softmax((y_0, y_1, ..., y_n))=(\frac{y_0}{\Sigma_{i=0}^n y_i}, ..., \frac{y_n}{\Sigma_{i=0}^n y_i})$
也就是说， $softmax$ 函数的输入是一个向量，而其输出也是一个向量，向量中的每个元素都是介于0和1之间的概率值。下面将以最简单的形式来描述 $softmax$ 函数的定义和求导问题。假设输入是包含3个元素的向量，而输出是包含2个元素的向量，也就说 $m=2, n=1$ ，如下图所示。

图中表示了从输入到输出的一个转换过程，参数有6个，可以写成一个矩阵的形式。
$θ = [w 00, w 10, w 20 w 01, w 11, w 21]$ $\theta=\left[\begin{array}\\w_{00},w_{10}, w_{20}\\w_{01},w_{11},w_{21}\end{array}\right]$ 这里把与输出向量中每个元素链接的权重组织成一行，所以共有两行。令 $\theta_0=[w_{00},w_{10}, w_{20}]$ ， $\theta_1=[w_{01},w_{11}, w_{21}]$ ，则有。
$θ = [θ 0 θ 1]$ $\theta=\left[\begin{array} \\\theta_0\\\theta_1\end{array}\right]$ 用 $h$ 来代表转换函数，则有如下式子。
$y 0 = h (θ 0, x)$ $y_0 = h(\theta_0, x)$ $y 1 = h (θ 1, x)$ $y_1 = h(\theta_1, x)$
针对这个具体例子则有。
$s o f t m a x ((y 0, y 1)) = (h ( θ 0 , x ) h ( θ 0 , x ) + h ( θ 1 , x ), h ( θ 1 , x ) h ( θ 0 , x ) + h ( θ 1 , x ))$ $softmax((y_0, y_1))=(\frac{h(\theta_0, x)}{h(\theta_0, x) + h(\theta_1, x)},\frac{h(\theta_1, x)}{h(\theta_0, x) + h(\theta_1, x)})$
为了方便书写，令 $z 0 = h ( θ 0 , x ) h ( θ 0 , x ) + h ( θ 1 , x )$ $z_0 = \frac{h(\theta_0, x)}{h(\theta_0, x) + h(\theta_1, x)}$ $z 1 = h ( θ 1 , x ) h ( θ 0 , x ) + h ( θ 1 , x )$ $z_1 = \frac{h(\theta_1, x)}{h(\theta_0, x) + h(\theta_1, x)}$ 按照对向量求导的定义，其结果应该是一个Jacobian矩阵，则对 $softmax$ 函数的求导可以写为如下形式。
$\partial s o f t m a x ( ( y 0 , y 1 ) ) \partial x = ⎡ ⎣ ⎢ ⎢ \partial z 0 \partial x \partial z 1 \partial x ⎤ ⎦ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ \partial z 0 \partial x 0 \partial z 0 \partial x 1 \partial z 0 \partial x 2 \partial z 1 \partial x 0 \partial z 1 \partial x 1 \partial z 1 \partial x 2 ⎤ ⎦ ⎥ ⎥ ⎥$ $\frac{\partial softmax((y_0, y_1))}{\partial x}=\left[\begin{array}\\ \frac{\partial z_0}{\partial x} \\\frac{\partial z_1}{\partial x}\end{array}\right]=\left[\begin{array}\\\frac{\partial z_0}{\partial x_0}\frac{\partial z_0}{\partial x_1} \frac{\partial z_0}{\partial x_2}\\\frac{\partial z_1}{\partial x_0}\frac{\partial z_1}{\partial x_1} \frac{\partial z_1}{\partial x_2}\end{array}\right]$

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。