Transformer——Q67 分析动态归一化（Dynamic Normalization）的滑动平均更新公式

原创

于 2025-05-09 01:54:07 发布 · 1k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能 #残差连接 #归一化

该问题归类到Transformer架构问题集——残差与归一化——归一化技术。请参考LLM数学推导——Transformer架构问题集。

在深度学习的浩瀚星空中，归一化技术犹如璀璨星辰，而动态归一化（Dynamic Normalization）凭借其独特的 “动态智慧” 脱颖而出。其中，滑动平均更新公式作为动态归一化的核心 “引擎”，驱动着模型在数据洪流中稳健前行。接下来，我们将深入剖析这一公式，以扎实的理论、生动的语言、丰富的案例，揭开动态归一化高效运作的神秘面纱。

1. 动态归一化（Dynamic Normalization）基础概念

1.1 传统归一化的局限

在深度学习的训练过程中，归一化技术是稳定数据分布、加速模型收敛的关键手段。然而，传统的归一化方法，如 BatchNorm（批量归一化）和 LayerNorm（层归一化），存在一定局限性。BatchNorm 依赖批量数据计算均值和方差，当批量大小变化或数据分布波动较大时，归一化效果会大打折扣；LayerNorm 虽能适应单个样本，但缺乏对数据动态变化的灵活响应能力。这些局限促使研究者们探索更强大的归一化技术，动态归一化应运而生。

1.2 动态归一化的核心思想

动态归一化打破了传统归一化的固定模式，旨在根据数据的实时特征动态调整归一化参数。它就像一位 “智能管家”，时刻敏锐感知数据的变化，通过精心设计的滑动平均更新公式，灵活调整归一化的均值和方差等参数，使模型能够更好地适应不同的数据分布，提升训练的稳定性和模型的性能。

2. 滑动平均更新公式的数学原理

2.1 公式定义

动态归一化的滑动平均更新公式通常用于更新归一化过程中的均值 $\mu$ 和方差 $\sigma^2$ 等关键参数。以均值 $\mu$ 的更新为例，其滑动平均更新公式一般形式为： $\mu_{t} = \alpha \cdot \mu_{t - 1} + (1 - \alpha) \cdot \bar{x}_{t}$ 其中， $\mu_{t}$ 表示在第 t 次更新后的均值， $\mu_{t - 1}$ 是上一次（第 t - 1 次）更新后的均值， $\alpha$ 是滑动平均系数（