文章的前提是 si = ziWi + bi 和 zi+1=f(si) 这两个式子
对于文中的公式2,根据上面的关系,可以知道求cost对si的导数首先需要求得cost对zi+1的导数,而对zi+1的导数可以先求得cost对si+1的导数,求得之后乘以si+1对zi+1的导数,也就是Wi+1,再乘以zi+1对si的导数,也就是f’(si),得到最终结果。
而对于文中的公式3,cost对Wi的导数也就是cost对si的导数乘以si对Wi的导数,也就是zi。
综上得到文中的第一个重要关系。
公式4和5较难,需要理解推导的前提。
首先在这里假设了输入A和参数W这两个变量独立。则有:Var(si) = Var(ziWi+bi)=Var(ziWi) = [E(zi)]2Var(Wi) + [E(Wi)]2Var(zi) + Var(zi)Var(Wi).
其次假设了A和W都满足一个均值为0的分布,即 E(zi) = E(Wi) = 0,那么上式就变成了 Var(si) = Var(zi)Var(Wi),对于第一层 Var(zi) = Var(x),x为data。而 zi+1=f(si),其中的激活函数f会对方差产生影响,所以这里有一个关键假设,就是f’(0) = 1,并且只考虑线性区,那么在这个区间有 f(x)≈x,激活函数对输入的方差的影响可以忽略,因此有:Var(zi+1)≈Var(si),由此得到公式4和5.
由上面的推到很容易得到6和7,其中7中有一个Var(zi)是需要用公式5中求得的公式进行替换的。注意这两个公式和4,5两个公式的i的增长方向和区间。
公式8 和9 就是 让输入和输出 的 var 相等,但是得到的condition在每层的width不一样的时候无法同时满足,于是有了公式12.