Softmax vs. Softmax-Loss: Numerical Stability

最新推荐文章于 2023-09-26 22:37:43 发布

原创最新推荐文章于 2023-09-26 22:37:43 发布 · 873 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

Caffe学习同时被 2 个专栏收录

44 篇文章

订阅专栏

39 篇文章

订阅专栏

本文探讨了在神经网络中Softmax与Softmax-Loss层的区别及其对数值稳定性的影响。通过对比分析，说明了将两者结合为一层的优势，尤其是在避免因浮点数运算累积误差而导致的数值不稳定问题。

参考博文《Softmax vs. Softmax-Loss: Numerical Stability》
Softmax vs. Softmax-Loss: Numerical Stability

其中有关键的几段话：

整个网络的参数的 gradient 的计算方法是从顶层出发向后，在层的时候，会拿到从得到的也就是，然后需要做两个计算：首先是自己层内的参数的 gradient，比如如果是一个普通的全连通内积层，则会有参数和 bias 参数，根据刚才的 Chain Rule 式子直接计算就可以了，如果 层没有参数 (例如 Softmax 或者 Softmax-Loss 层就是没有参数的。)，这一步可以省略；其次就是“向后传递”的步骤，同样地，根据 Chain Rule 我们可以计算. 即当对输入数据bottom求导时，仅仅是为了“向后传递”，这个导数并不参与该层的参数的gradient descent 参数更新，因为该层就没有参数，如何来更新
我们回到 Softmax-Loss 层，由于该层没有参数，我们只需要计算向后传递的导数就可以了，此外由于该层是最顶层，所以不用使用 chain rule 就可以直接计算对于最终输出（loss）的导数。回忆一下我们刚才的 notation，Softmax-Loss 层合在一起的时候我们用来表示，它有两个输入，一个是 true label ，直接来自于最底部的数据层，并且我们不需要对数据层做任何的 gradient descent 参数更新，所以我们不需要像那个输入进行 back propagation，但是另外一个输入则来自于下面的计算层，对于 Logistic Regression 或者普通的 DNNs 下面会是一个全连通的线性内积层，不过具体是什么我们也不需要关心，只要把计算出来丢给下面让他们自己去算后面的就好了。
和刚才的结果一样的，看来我们求导没有求错。虽然最终结果是一样的，但是我们可以看出，如果分成两层计算的话，要多算好多步骤，除了计算量增大了一点，我们更关心的是数值上的稳定性。由于浮点数是有精度限制的，每多一次运算就会多累积一定的误差，注意到分成两步计算的时候我们需要计算这个量，如果碰巧这次预测非常不准，的值，也就是正确的类别所得到的概率非常小（接近零）的话，这里会有 overflow 的危险。下面我们来实际试验一下，首先定义好两种不同的计算函数：

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。