网络权重初始化方法总结：Lecun、Xavier与He Kaiming

转载已于 2025-04-14 14:07:02 修改 · 548 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://www.cnblogs.com/shine-lee/p/11908610.html

文章标签：

#人工智能 #深度学习

于 2023-05-21 23:01:26 首次发布

初始化在神经网络中扮演关键角色，主要是为了保持二阶矩稳定，避免模型训练时模长发生剧烈变化。Lecun提出从N(0,1/fan_in)分布采样，Xavier则建议使用N(0,2/(fan_in+fan_out))，适用于全连接层。对于含ReLU激活函数的情况，Heckaiming推荐N(0,2/fan_in)或N(0,2/fan_out)。PyTorch的TransformerEncoder采用了类似Xavier的策略。

部署运行你感兴趣的模型镜像

快速总结一下，初始化的目的其实是为了二阶矩（也就是模长）不发生大变化：

Lecun: 从N(0,1/fan_in)从采样
Xavier: 从N(0,2/(fan_in+fan_out))中采样，pytorch的TransformerEncoder用的是这个，但其实TransformerEncoder不同于纯nn，在HF的TransformerEncoder用多用的normalize初始化，且把方差设置的低一些为了照顾残差链接，这部分可以参考浅谈Transformer的初始化、参数化与标准化
He kaiming: 针对Relu,N(0,2/fan_in)或者N(0,2/fan_out)中都行

您可能感兴趣的与本文相关的镜像

PyTorch 2.9

PyTorch 2.9

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。