直观理解神经网络最后一层全连接+Softmax

最新推荐文章于 2025-04-12 12:17:37 发布

原创最新推荐文章于 2025-04-12 12:17:37 发布 · 5.2w 阅读

298 ·

CC 4.0 BY-SA版权

深度学习基础专栏收录该内容

12 篇文章

订阅专栏

本文从加权、模板匹配和几何三个角度深入理解神经网络最后一层全连接+Softmax。全连接层将特征与权重相乘得到分数，Softmax将其转换为概率分布。加权角度强调权重的重要性，模板匹配视wj为类别模板，几何角度通过超平面划分解释多分类。Softmax提供更好的可解释性，便于后续处理。

博客：blog.shinelee.me | 博客园 | 优快云

写在前面

这篇文章将从3个角度：加权、模版匹配与几何来理解最后一层全连接+Softmax。掌握了这3种视角，可以更好地理解深度学习中的正则项、参数可视化以及一些损失函数背后的设计思想。

全连接层与Softmax回顾

深度神经网络的最后一层往往是全连接层+Softmax（分类网络），如下图所示，图片来自StackExchange。

先看一下计算方式：全连接层将权重矩阵与输入向量相乘再加上偏置，将 $n$ 个 $(-\infty, +\infty)$ 的实数映射为 $K$ 个 $(-\infty, +\infty)$ 的实数（分数）；Softmax将 $K$ 个 $(-\infty, +\infty)$ 的实数映射为 $K$ 个 $(0, 1)$ 的实数（概率），同时保证它们之和为1。具体如下：

$\hat{\mathrm{y}} = softmax(\mathrm{z}) = softmax(\mathrm{W}^{T} \mathrm{x} + \mathrm{b})$

其中， $\mathrm{x}$ 为全连接层的输入， $W_{n \times K}$ 为权重， $\mathrm{b}$ 为偏置项， $\hat{\mathrm{y}}$ 为Softmax输出的概率，Softmax的计算方式如下：

$softmax(z_j) = \frac{e^{z_j}}{\sum_K e^{z_j}}$

若拆成每个类别的概率如下：

$\hat{y_j} = softmax(z_j) = softmax(\mathrm{w}_{j} \cdot \mathrm{x} + b_j)$

其中， $\mathrm{w}_{j}$ 为图中全连接层同一颜色权重组成的向量。

该如何理解？

下面提供3个理解角度：加权角度、模版匹配角度与几何角度

加权角度

加权角度可能是最直接的理解角度。

通常将网络最后一个全连接层的输入，即上面的 $\mathrm{x}$ ，视为网络从输入数据提取到的特征。

$z_j = \mathrm{w}_{j} \cdot \mathrm{x} + b_j = w_{j1} x_1 + w_{j2} x_2 + \dots + w_{jn} x_n + b_j$

将 $\mathrm{w}_{j}$ 视为第 $j$ 类下特征的权重，即每维特征的重要程度、对最终分数的影响程度，通过对特征加权求和得到每个类别的分数，再经过Softmax映射为概率。

模板匹配

也可以将 $\mathrm{w}_{j}$ 视为第 $j$ 类的特征模板，特征与每个类别的模板进行模版匹配，得到与每个类别的相似程度，然后通过Softmax将相似程度映射为概率。如下图所示，图片素材来自CS231n。

FC template matching

如果是只有一个全连接层的神经网络（相当于线性分类器），将每个类别的模板可以直接可视化如下，图片素材来自CS231n。

FC template

如果是多层神经网络，最后一个全连接层的模板是特征空间的模板，可视化需要映射回输入空间。

几何角度

仍将全连接层的输入 $\mathrm{x}$ 视为网络从输入数据提取到的特征，一个特征对应多维空间中的一个点。

如果是二分类问题，使用线性分类器 $\hat{y} = \mathrm{w} \cdot \mathrm{x} + b$ ，若 $\hat{y}>0$ 即位于超平面的上方，则为正类， $\hat{y}<0$ 则为负类。

多分类怎么办？为每个类别设置一个超平面，通过多个超平面对特征空间进行划分，一个区域对应一个类别。 $\mathrm{w}_{j}$ 为每个超平面的法向量，指向正值的方向，超平面上分数为0，如果求特征与每个超平面间的距离（带正负）为

$d_j = \frac{\mathrm{w}_{j} \cdot \mathrm{x} + b_j}{||\mathrm{w}_{j}||}$

而分数 $z_j = ||\mathrm{w}_{j}|| d_j$ ，再进一步通过Softmax映射为概率。

如下图所示：

Softmax的作用

相比 $(-\infty, +\infty)$ 范围内的分数，概率天然具有更好的可解释性，让后续取阈值等操作顺理成章。

经过全连接层，我们获得了 $K$ 个类别 $(-\infty, +\infty)$ 范围内的分数 $z_j$ ，为了得到属于每个类别的概率，先通过 $e^{z_j}$ 将分数映射到 $+\infty)$ ，然后再归一化到 $(0, 1)$ ，这便是Softmax的思想：

$\hat{y_j} = softmax(z_j) = \frac{e^{z_j}}{\sum_K e^{z_j}}$

总结

本文介绍了3种角度来更直观地理解全连接层+Softmax，

加权角度，将权重视为每维特征的重要程度，可以帮助理解L1、L2等正则项
模板匹配角度，可以帮助理解参数的可视化
几何角度，将特征视为多维空间中的点，可以帮助理解一些损失函数背后的设计思想（希望不同类的点具有何种性质）

视角不同，看到的画面就不同，就会萌生不同的idea。有些时候，换换视角问题就迎刃而解了。

以上。

参考

CS231n: Convolutional Neural Networks for Visual Recognition

10 条评论

Tony Einstein 2023.03.09
大佬，这个问题怎么解决呢：https://ask.youkuaiyun.com/questions/7898583?weChatOA=weChatOA1

JYⅨ 2022.08.01
博主大大，我想问下全连接层后面输出的那些有正有负的分数，正负代表什么，负数是表示预测为这一类的可能性很低吗？

DLluop 2019.05.07
博主您好，我还有一个问题想问，通过神经网络训练好的分类器，是否无论训练时间长短、或是网络模型深度如何，都能快速的实时识别呢？是否神经元多网络模型庞大不但训练时间长，而且训练好以后识别的速度也比较慢呢，不能达到实时识别？
- DLluop回复shine-lee 2019.05.08
  好的，谢谢博主
- shine-lee回复DLluop 2019.05.07
  [reply]luopeng12345[/reply] 网络规模越大，时间自然越长，因为计算量大了嘛。时间跟模型、推理框架、硬件平台都有关系，可以去github上看看一些推理框架的benchmark，比如ncnn、nnpack等

DLluop 2019.04.29
博主您好，才接触神经网络有个问题想问，就是Alexnet有三层全连接，最后一个全连接层也是softmax输出层，也就是说最后一层已经进行分类了，输出了1000个分类概率加起来是1对吗，但是我不明白这里1000有什么意义，比如我想训练Alexnet网络将人脸的表情分为七种，我应该在最后的全连接层之后再输出7个表情标签，还是直接最后一个全连接层就直接输出7种标签？小白不懂，请大神解惑。感谢
- 爱神曾冰封回复qq_44392551 2021.09.06
  应该是每个类别应该包含的各个特征的信息比重不同，就是那些Wj权重，要学习的就是这些权重
- qq_44392551回复shine-lee 2020.11.20
  博主你好，全连接层为7，7个神经元，由于Wj的不同，每个神经元包含的类别信息就会不同，通过不断调整wj来完成分类，是不是这个意思，博主
- DLluop回复shine-lee 2019.05.06
  感谢?
- shine-lee回复DLluop 2019.05.05
  [reply]luopeng12345[/reply] 全连接层的输出为7，再通过softmax将7个输出映射为概率。类别有多少个，最后一个全连接层的输出就有多少个，全连接层输出的是实数，需要通过softmax映射为概率