神经网络中参数的初始化问题

taoqick

已于 2025-03-20 00:34:19 修改

阅读量250

点赞数 1

CC 4.0 BY-SA版权

文章标签：神经网络人工智能深度学习

于 2023-09-19 23:49:19 首次发布

原文链接：https://zhuanlan.zhihu.com/p/75879624?utm_campaign=shareopn&utm_medium=social&utm_psn=1859226216327958528&utm_source=wechat_session

总结

单层的MLP（没有隐藏层，二分类，输出层使用sigmoid函数），单层MLP和逻辑回归是完全等价的。逻辑回归初始化为全0是没问题的
多层MLP初始化为0不行，因为每一隐藏层的隐藏神经元权重都是一致的（反向传播的时候过个relu直接弄成0了），多个隐藏神经元的作用就如同一个神经元

为什么神经网络不能初始化权重W为0？为什么单层MLP的LR（没有隐藏层）就可以初始化权重W为0呢？

来自DeepSeek的简洁推导

LR可以初始化为全零

在这里插入图片描述

神经网络不可以

在这里插入图片描述

来自知乎磨磨唧唧的推导

以下转载自https://zhuanlan.zhihu.com/p/75879624?utm_campaign=shareopn&utm_medium=social&utm_psn=1859226216327958528&utm_source=wechat_session
在这里插入图片描述
转载自https://zhuanlan.zhihu.com/p/75879624

随意初始化为非零的权重是否可行?

答案肯定是不行的！
随意的初始化权重可能会导致梯度爆炸和梯度消失。例如当神经网络为线性的，我们初始化所有参数W=0.1或者W=0.9，都会造成指数级影响
在这里插入图片描述

如何初始化

快速总结一下，初始化的目的其实是为了二阶矩（也就是模长）不发生大变化：

Lecun: 从N(0,1/fan_in)从采样，也叫做LeCun 正态初始化，也称为 LeCun 均匀初始化，适用于更适合线性或者近似线性的激活函数，如双曲正切（在输入接近0时近似线性）
Xavier: 从N(0,2/(fan_in+fan_out))中采样，pytorch的TransformerEncoder用的是这个
He kaiming: 针对Relu,N(0,2/fan_in)或者N(0,2/fan_out)中都行

细看https://blog.youkuaiyun.com/taoqick/article/details/130798166

博客等级

码龄13年

478
原创

1347
点赞

2711
收藏

656
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 结合TRL的PPO的分析

下一篇：: 深度学习中的batchsize对学习效果有何影响？

最新评论

图片视频抹除算法总结Inpaint
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性。
分析transformer模型的参数量、计算量、中间激活、KV cache、bf16、fp16、混合精度训练
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
LeetCode 1032. Stream of Characters 4行Trie树
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性；(3)增加条理清晰的目录。
旋转式位置编码Rotary Position Embedding（RoPE）
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性。
量化QAT QLoRA OBD OBS GPTQ
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性。

大家在看

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。