Training Very Deep Networks公式推导

最新推荐文章于 2021-07-16 21:37:58 发布

原创最新推荐文章于 2021-07-16 21:37:58 发布 · 574 阅读

0 ·

CC 4.0 BY-SA版权

深度学习专栏收录该内容

5 篇文章

订阅专栏

本文探讨了训练深层神经网络时遇到的优化难题，并介绍了一种改进方法。通过引入T和C函数，实现输入输出间的有效映射，特别是当T取特定值时，能够简化网络结构，形成残差连接。

原论文：Training Very Deep Networks

作者：Rupesh Kumar Srivastava Klaus Greff Jurgen Schmidhuber

时间：22 Jul 2015

本文的大部分观点来自于这篇论文，并且加入了一些自己的理解。该博客纯属读书笔记。

假设一个简单的由L层隐层构成的网络，我们令它的参数去拟合函数H，为了推导方便，我们假设输入输出的维度相同。那么我们可以得到输出y：

通过实验证明求解器很难优化这个函数，所以我们将这个函数做适当的变形。我们加了两个新的函数T和C：

在这里我们可以简单的将函数T理解为实现了对原函数H，也就是输入输出的映射函数的一个放大或缩小的功能。函数C是对输入C的直接传送，使输入不经过函数H的映射直接加到输出y上。they express how much of the output is produced by transforming the input and carrying it 。

为了让式子更简洁，我们让C=1-T，得到：