浅析神经网络的偏置为什么要设计成一维矩阵

在读斋藤康毅的深度学习入门的时候,他把神经网络的偏置设置成一维的,当时觉得很不理解,因为既然偏置是对应输出矩阵元素的个数,那输出的维度是多少偏置的维度就应该是多少,而且形状和输出的矩阵保持一致,例如:输入矩阵X(2,4),权重W(4,3),则输出就是Y(2,3),偏置B从存在的意义上讲就是“容错”的机制。我们假设输入的四类动物的个数,权重则是这四类动物共有属性的集合。

举例

这里用腿的数目举例:假设这四类动物是斑马,小鸟,狮子,和狗,这样斑马、狮子和狗的腿(权 重)就是4,鸟是2。如果第一组输入的个数分别是2只斑马,1只小鸟,2只狮子,4只狗,总的腿数目就是24+12+24+44=32。但是,若其中一只狗瘸了一条腿,那就可以-1来保持数量的正确性,这里-1就是偏置B的其中一个元素。这样从实际出发,偏置的个数的形状就是(2,3)。但是这本书只是用了python矩阵的传播机制,用了一维的数组。

猜测

设计神经网络的时候无法确定输入的个数,比如说上面X(2,4),能确定的就只是列的个数。但是输出的元素个数是可以设计的,因此权重W就是可以设计的,能设计就可以用梯度下降法更新权重W。由于偏置的设计要结合输入的个数才能确定,所以输入的不确定导致了偏置形状的不确定,这样就无法用梯度下降法更新B。所以干脆设计成一维度,用矩阵的广播机制让所有元素都和对应列的偏置作用起来,而且偏置B对损失LOSS的影响没有W明显,所以就没那么严谨了。以上个人猜测,不对的地方求指导。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值