浅析神经网络的偏置为什么要设计成一维矩阵

最新推荐文章于 2025-03-10 11:15:30 发布

Deviii

最新推荐文章于 2025-03-10 11:15:30 发布

阅读量964

点赞数 2

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/weixin_40231436/article/details/104085028

版权

机器学习专栏收录该内容

2 篇文章

订阅专栏

在读斋藤康毅的深度学习入门的时候，他把神经网络的偏置设置成一维的，当时觉得很不理解，因为既然偏置是对应输出矩阵元素的个数，那输出的维度是多少偏置的维度就应该是多少，而且形状和输出的矩阵保持一致，例如：输入矩阵X(2,4),权重W(4,3),则输出就是Y(2,3),偏置B从存在的意义上讲就是“容错”的机制。我们假设输入的四类动物的个数，权重则是这四类动物共有属性的集合。

举例

这里用腿的数目举例：假设这四类动物是斑马，小鸟，狮子，和狗，这样斑马、狮子和狗的腿(权重)就是4，鸟是2。如果第一组输入的个数分别是2只斑马，1只小鸟，2只狮子，4只狗，总的腿数目就是24+12+24+44=32。但是，若其中一只狗瘸了一条腿，那就可以-1来保持数量的正确性，这里-1就是偏置B的其中一个元素。这样从实际出发，偏置的个数的形状就是(2,3)。但是这本书只是用了python矩阵的传播机制，用了一维的数组。

猜测

设计神经网络的时候无法确定输入的个数，比如说上面X(2,4),能确定的就只是列的个数。但是输出的元素个数是可以设计的，因此权重W就是可以设计的，能设计就可以用梯度下降法更新权重W。由于偏置的设计要结合输入的个数才能确定，所以输入的不确定导致了偏置形状的不确定，这样就无法用梯度下降法更新B。所以干脆设计成一维度，用矩阵的广播机制让所有元素都和对应列的偏置作用起来，而且偏置B对损失LOSS的影响没有W明显，所以就没那么严谨了。以上个人猜测，不对的地方求指导。