15、神经网络中的概率建模、非线性激活及权重复用-优快云博客

本文链接：https://blog.youkuaiyun.com/pytorchlight8/article/details/154594043

神经网络中的概率建模、非线性激活及权重复用

输入的相似性与Softmax激活函数

在处理神经网络时，输入的相似性是一个核心问题。不同的数字具有相似的特征，例如MNIST数据集中的数字，它们的像素值存在重叠，平均的数字2和数字3就有很多共同之处。一般来说，相似的输入会产生相似的输出，当我们将一些数字与矩阵相乘时，如果起始数字相似，那么最终结果也会相似。

以数字2和3为例，如果在正向传播过程中，数字2的预测有少量概率错误地分配到了标签3上，若网络将此视为重大错误并进行大幅权重更新，就会对网络识别数字2产生惩罚。因为数字2和3在图像顶部有相同的曲线，使用Sigmoid函数进行训练时，网络会因基于此输入预测数字2而受到惩罚。这会导致网络开始关注图像边缘，因为大多数图像在中间部分有大量共享像素。然而，这种方式可能无法让网络学习到数字2的真正本质。

我们需要一种输出激活函数，它不会惩罚相似的标签，而是关注所有可能指示潜在输入的信息。Softmax函数就满足这一需求，它的概率总和始终为1，能将单个预测解释为该预测属于特定标签的全局概率，在理论和实践中都表现出色。

Softmax计算

Softmax函数将每个输入值进行指数运算，然后除以该层的总和。以下是一个Softmax计算的示例：
假设神经网络的假设输出值为：
| 索引 | 原始点积值 |
| — | — |
| 0 | 0.0 |
| 1 | 100 |
| 2 | 0.0 |
| 3 | 0.0 |
| 4 | 0.0 |
| 5 | 0.0 |
| 6 | 0.0 |
| 7 | 0.