改进神经网络学习方法-柔性最大值、L规范化以及其他技术

最新推荐文章于 2024-05-27 23:52:35 发布

「已注销」

最新推荐文章于 2024-05-27 23:52:35 发布

阅读量996

点赞数

分类专栏：神经网络与深度学习文章标签：神经网络深度学习

本文链接：https://blog.youkuaiyun.com/xu_ampl/article/details/95510317

版权

本文介绍了神经网络中的柔性最大值（softmax）及其在学习过程中的作用，探讨了对数似然代价函数与交叉熵的联系。接着，讨论了过度拟合的解决方案——L2和L1规范化，以及它们如何影响权重更新。此外，还提到了弃权（dropout）技术，权重初始化，超参数选择，以及基于动量的梯度下降等优化方法，以提高神经网络的性能和防止过拟合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

改进神经网络学习方法-柔性最大值、L规范化方法以及其他技术
《Neural Networks and Deep Learning》 $\text{(Michael Nielsen)}$ 笔记 (四)

柔性最大值（ $\text{softmax}$ ）
柔性最大值是为神经网络定义一种新式的输出层。开始是和 $S$ 型层一样，首先计算带权输入 $z_{j}^{L}=\sum_{k} w_{j k}^{L} a_{k}^{L-1}+b_{j}^{L}$ ，而后通过 $a_{j}^{L}=\frac{e^{z_{j}^{L}}}{\sum_{k} e^{z_{k}^{L}}}$ 获取第 $j$ 个神经元的激活值 $a_{j}^{L}$
由 $\sum_{j} a_{j}^{L}=\frac{\sum_{j} e^{z_{j}^{L}}}{\sum_{k} e^{z_{k}^{L}}}=1$ 且激活值都是正数，柔性最大值可以看做是一种概率分布。
柔性最大值的单调性：如果 $j = k$ 则 $\frac{\partial a_{j}^{L} }{ \partial z_{k}^{L}}$ 为正， $\neq k$ 时为负，增加 $z_{j}^{L}$ 会提高相应的输出激活值 $a_{j}^{L}$ 并降低其他所有输出激活值。

学习缓慢问题：柔性最大层解决学习缓慢问题

对数似然函数( $\text{log-likelihood}$ )代价函数
我们使用 $x$ 表示网络的训练输入， $y$ 表示对应的目标输出，关联这个训练输入的对数似然代价函数是 $\equiv-\ln a_{y}^{L}$ 对权重和偏置求偏导得： $\frac{\partial C}{\partial w_{j k}^{L}}=a_{k}^{L-1}\left(a_{j}^{L}-y_{j}\right)$ $\frac{\partial C}{\partial b_{j}^{L}}=a_{j}^{L}-y_{j}$ 偏导数的分析结果与交叉熵得到的类似，这些表达式确保我们不会遇到学习缓慢问题。
把一个具有对数似然代价的柔性最大值输出层，看作与一个具有交叉熵代价的 $S$ 型输出层非常相似，在实际应用场景中，两种方式的效果都不错。
柔性最大值加上对数似然的组合更加适用于那些需要将输出激活值解释作为概率的场景。