xavier initialization 公式推导及理解

文章的前提是 si = ziWi + bi 和 zi+1=f(si) 这两个式子

对于文中的公式2,根据上面的关系,可以知道求cost对si的导数首先需要求得cost对zi+1的导数,而对zi+1的导数可以先求得cost对si+1的导数,求得之后乘以si+1对zi+1的导数,也就是Wi+1,再乘以zi+1对si的导数,也就是f’(si),得到最终结果。
而对于文中的公式3,cost对Wi的导数也就是cost对si的导数乘以si对Wi的导数,也就是zi
综上得到文中的第一个重要关系。
在这里插入图片描述
公式4和5较难,需要理解推导的前提。
首先在这里假设了输入A和参数W这两个变量独立。则有:Var(si) = Var(ziWi+bi)=Var(ziWi) = [E(zi)]2Var(Wi) + [E(Wi)]2Var(zi) + Var(zi)Var(Wi).
其次假设了A和W都满足一个均值为0的分布,即 E(zi) = E(Wi) = 0,那么上式就变成了 Var(si) = Var(zi)Var(Wi),对于第一层 Var(zi) = Var(x),x为data。而 zi+1=f(si),其中的激活函数f会对方差产生影响,所以这里有一个关键假设,就是f’(0) = 1,并且只考虑线性区,那么在这个区间有 f(x)≈x,激活函数对输入的方差的影响可以忽略,因此有:Var(zi+1)≈Var(si),由此得到公式4和5.

由上面的推到很容易得到6和7,其中7中有一个Var(zi)是需要用公式5中求得的公式进行替换的。注意这两个公式和4,5两个公式的i的增长方向和区间。

公式8 和9 就是 让输入和输出 的 var 相等,但是得到的condition在每层的width不一样的时候无法同时满足,于是有了公式12.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值