Layer Normalization

最新推荐文章于 2025-03-29 10:35:44 发布

andeyeluguo

最新推荐文章于 2025-03-29 10:35:44 发布

阅读量1.6k

点赞数 8

分类专栏： AI笔记文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/andeyeluguo/article/details/136125859

版权

AI笔记专栏收录该内容

122 篇文章 ¥59.90 ¥99.00

订阅专栏

Layer Normalization（层归一化）是一种常用的归一化技术，用于神经网络的每个层的输入进行归一化处理。其公式如下：

对于一个具有特征维度为 \(d\) 的输入 \(x = (x_1, x_2, ..., x_d)\)，Layer Normalization 的计算公式如下：

\[
\text{LayerNorm}(x) = \gamma \odot \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} + \beta
\]

其中：
- \( \text{LayerNorm}(x) \) 表示对输入 \( x \) 进行 Layer Normalization 的结果。
- \(\gamma\) 和 \(\beta\) 是可学习的参数向量，维度均为 \(d\)。它们用于对归一化的结果进行缩放和平移，以便让网络自由地学习调整数据的均值和方差。
- \(\mu\) 是输入 \(x\) 在特征维度上的均值，计算方式为：\(\mu = \frac{1}{d} \sum_{i=1}^{d} x_i\)。
- \(\sigma\) 是输入 \(x\) 在特征维度上的标准差，计算方式为：\(\sigma = \sqrt{\frac{1}{d} \sum_{i=1}^{d} (x_i - \mu)^2}\)。
- \(\epsilon\) 是一个小的常数（

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

andeyeluguo 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。