一个简单例子说明白softmax 逻辑回归与 one-hot 编码的关系

本文探讨了在神经网络中使用one-hot编码时的问题，包括如何通过去除sigmoid函数和应用softmax逻辑回归来改善最大值与其他值之间的差距，从而优化one-hot输出。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. one-hot 只关注最强分量

看一个简单例子：假设神经网络模型输出三分类结果 $z_1,z_2,z_3)$ ，已知某训练样本 $x$ 的类别是 $(1, 0, 0)$ ，模型参数调整前输出 $(0.9, 0.7, 0.5))$ ，参数调整后输出为 $(0.9, 0.6, 0.6 .)$ .。我们看一下二者的损失函数：

$Loss(w1)=∣0.9−1∣+∣0.7−0∣+∣0.3−0∣=1.1(1)\tag1 Loss(w_1) = |0.9-1|+|0.7-0|+|0.3-0|=1.1$
$Loss(w2)=∣0.9−1∣+∣0.5−0∣+∣0.5−0∣=1.1(2)\tag2 Loss(w_2) = |0.9-1|+|0.5-0|+|0.5-0|=1.1$

因为采用 one-hot 编码，我们最关心向量分量的最大值和次大值之间的差距，这个差越大越好。虽然 (1)、(2) 两式结果一样，其实我们更看好 (2) 式的结果。因此，我们需要引入一种算法，拉开最大值与其他值之间的差距。

记得有人曾说过，大家都知道世界第一高峰，但是世界第二高峰却被大家忽略。one-hot 也和我们这些俗人一样，只关心最大的分量，其他的一概无视。

2. 去掉最后隐层的 sigmoid 函数

按照上面的例子，如果去掉网络模型最后隐层的 sigmoid 函数后，输出应该是什么呢？看下面方程：
$z=σ(y)=11+e−y(3)\tag3 z=\sigma(y)=\frac{1}{1+e^{-y}}$
于是
$y=ln(z1−z)(4)\tag4 y=ln(\frac{z}{1-z})$
可以算出，去掉最后隐层的 sigmoid函数，网络的输出是

z	y
(0.9, 0.7, 0.3)	(2.20，0.83，-0.85)
(0.9, 0.5, 0.5)	(2.20，0.00， 0.00)

从这个表中，我们可以看到，去掉 sigmoid 函数后，第二个结果更好了。这说明原模型最后隐层中的sigmoid函数实际上降低了最大分量和第二大分量的差距，不利于最后的 one-hot 输出。

3. softmax 逻辑回归

one-hot 输出要求分量的值域落在 [0, 1] 范围，于是我们需要把输出结果规范化一下，有人想到在此过程中能否进一步拉大第一名和第二名的距离？当然可以，做变换
$u=ey(5)\tag5 u=e^y$
因为，
$dey=eydy>dy，(y>0)(6)\tag6 \mathrm{d}e^y=e^y\mathrm{d}y\gt\mathrm{d}y，(y>0)$
可以断定，这个变换一定能加大第一名和第二名的距离。此外，此变换把自变量的定义域 $(−∞,+∞)(-\infty, +\infty)$ 变换到 $+\infty)$ ，适合最归一化操作。于是我们得到 softmax 变换公式，
$u1=ey1ey1+ey2+ey3(7)\tag7 u_1 = \frac{e^{y_1}}{e^{y_1}+e^{y_2}+e^{y_3}}$
$u2=ey2ey1+ey2+ey3(8)\tag8 u_2 = \frac{e^{y_2}}{e^{y_1}+e^{y_2}+e^{y_3}}$
$u3=ey3ey1+ey2+ey3(9)\tag9 u_3 = \frac{e^{y_3}}{e^{y_1}+e^{y_2}+e^{y_3}}$
最后我们看一下经过 softmax 变换后的输出结果，