神经网络中的概率建模、非线性激活及权重复用
输入的相似性与Softmax激活函数
在处理神经网络时,输入的相似性是一个核心问题。不同的数字具有相似的特征,例如MNIST数据集中的数字,它们的像素值存在重叠,平均的数字2和数字3就有很多共同之处。一般来说,相似的输入会产生相似的输出,当我们将一些数字与矩阵相乘时,如果起始数字相似,那么最终结果也会相似。
以数字2和3为例,如果在正向传播过程中,数字2的预测有少量概率错误地分配到了标签3上,若网络将此视为重大错误并进行大幅权重更新,就会对网络识别数字2产生惩罚。因为数字2和3在图像顶部有相同的曲线,使用Sigmoid函数进行训练时,网络会因基于此输入预测数字2而受到惩罚。这会导致网络开始关注图像边缘,因为大多数图像在中间部分有大量共享像素。然而,这种方式可能无法让网络学习到数字2的真正本质。
我们需要一种输出激活函数,它不会惩罚相似的标签,而是关注所有可能指示潜在输入的信息。Softmax函数就满足这一需求,它的概率总和始终为1,能将单个预测解释为该预测属于特定标签的全局概率,在理论和实践中都表现出色。
Softmax计算
Softmax函数将每个输入值进行指数运算,然后除以该层的总和。以下是一个Softmax计算的示例:
假设神经网络的假设输出值为:
| 索引 | 原始点积值 |
| — | — |
| 0 | 0.0 |
| 1 | 100 |
| 2 | 0.0 |
| 3 | 0.0 |
| 4 | 0.0 |
| 5 | 0.0 |
| 6 | 0.0 |
| 7 | 0.
神经网络中的Softmax与卷积权重复用
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



