详细介绍 RevIN(Reversible Instance Normalization)及其在时间序列中的应用
1. RevIN 的定义与背景
RevIN(可逆实例归一化)是一种专门为时间序列预测设计的归一化方法,旨在处理非平稳数据(non-stationary)和分布漂移(distribution shift)。其核心思想是通过可逆的归一化-反归一化步骤,在保留实例(instance)特有统计特性的同时,提升模型对分布变化的鲁棒性。RevIN 在训练时对每个时间序列实例独立归一化,并在预测后通过存储的统计量还原数据,确保输出与原始尺度一致。
2. RevIN 的步骤详解
1. 归一化阶段(Normalization)
步骤 1.1:计算均值与标准差
对输入时间序列的每个样本(或通道)独立计算均值和标准差:
- 输入:时间序列 X∈RB×T×CX \in \mathbb{R}^{B \times T \times C}X∈RB×T×C(Batch × 时间步 × 通道)
- 计算:
μc=1T∑t=1TXt,c,σc=1T∑t=1T(Xt,c−μc)2+ϵ \mu_c = \frac{1}{T} \sum_{t=1}^T X_{t,c}, \quad \sigma_c = \sqrt{\frac{1}{T} \sum_{t=1}^T (X_{t,c} - \mu_c)^2 + \epsilon} μc=T1t=1∑TXt,c,σc=T1t=1∑T(Xt,c−μc)2+ϵ
(每个通道 ccc 独立计算,ϵ\epsilonϵ 为数值稳定项)
步骤 1.2:标准化(Standardization)
对输入数据进行标准化:
X^t,c=Xt,c−μcσc
\hat{X}_{t,c} = \frac{X_{t,c} - \mu_c}{\sigma_c}
X^t,c=σcXt,c−μc
步骤 1.3:Affine 变换(可学习缩放与平移)
引入可学习的参数 γ∈RC\gamma \in \mathbb{R}^Cγ∈RC 和 β∈RC\beta \in \mathbb{R}^Cβ∈RC(每个通道独立),对标准化后的数据进行仿射变换:
X~t,c=γc⋅X^t,c+βc
\tilde{X}_{t,c} = \gamma_c \cdot \hat{X}_{t,c} + \beta_c
X~t,c=γc⋅X^t,c+βc
- 作用:允许模型自适应调整归一化后的分布,增强对不同时间序列模式的适应性。
2. 模型处理阶段
将归一化后的数据 X~\tilde{X}X~ 输入模型(如 Transformer、RNN 等),模型输出预测结果 Y~\tilde{Y}Y~。
3. 反归一化阶段(Denormalization)
步骤 3.1:逆 Affine 变换
利用学习到的 γ\gammaγ 和 β\betaβ,反向恢复标准化后的数据:
Y^t,c=Y~t,c−βcγc
\hat{Y}_{t,c} = \frac{\tilde{Y}_{t,c} - \beta_c}{\gamma_c}
Y^t,c=γcY~t,c−βc
步骤 3.2:恢复原始尺度
使用原始均值 μc\mu_cμc 和标准差 σc\sigma_cσc 恢复数据分布:
Yt,c=Y^t,c⋅σc+μc
Y_{t,c} = \hat{Y}_{t,c} \cdot \sigma_c + \mu_c
Yt,c=Y^t,c⋅σc+μc
关键点说明
-
Affine 变换的作用:
- 提供可学习的线性变换,使模型能动态调整归一化后的数据分布。
- 增强对不同时间序列通道(特征)的适应性(如某些通道需要保留更大方差)。
-
参数共享与学习:
- γ\gammaγ 和 β\betaβ 在训练中通过梯度下降学习,初始值通常为 γ=1,β=0\gamma=1, \beta=0γ=1,β=0。
- 参数按通道(
C
)维度定义,支持多变量时间序列的独立调整。
-
可逆性保障:
- 在反归一化时严格逆序操作(先逆 Affine,再恢复均值和标准差),确保数值稳定。
3. 时序平稳性(Stationary)与 RevIN 的作用
- 非平稳性问题:传统时间序列模型(如 ARIMA)需通过差分或变换使数据平稳(均值、方差不随时间变化)。但深度模型直接处理非平稳数据时,可能因分布变化而性能下降。
- RevIN 的解决方案:
- 在归一化阶段消除实例内的非平稳性(如局部趋势),使模型更容易学习残差模式。
- 反归一化时恢复原始分布,确保预测结果与实际物理意义一致。
4. 分布漂移(Distribution Shift)的应对
分布漂移指训练集与测试集数据分布不一致的问题,常见于时间序列的跨时段预测。RevIN 通过以下机制缓解该问题:
- 实例级归一化:每个序列独立处理,避免跨实例的分布假设,适应测试阶段的未知分布。
- 局部统计量:仅依赖当前实例的均值和方差,而非全局统计量,减少对历史数据分布的依赖。
5. Instance Normalization vs. 其他归一化方法
方法 | 归一化维度 | 适用场景 | 时间序列中的局限性 |
---|---|---|---|
Batch Norm (BN) | 跨批次的样本同一特征 | 图像、固定分布数据 | 破坏时间依赖关系,对分布漂移敏感 |
Layer Norm (LN) | 单个样本的所有神经元 | NLP、RNN/Transformer | 忽略特征间差异,对多变量时序效果有限 |
Group Norm (GN) | 将特征分组后归一化 | 小批量或动态网络 | 组划分需人工设定,不灵活 |
Instance Norm (IN) | 单个样本的每个特征独立归一化 | 风格迁移、图像生成 | 直接用于时序会丢失全局时序模式 |
RevIN | 实例级归一化 + 可逆性 | 非平稳时间序列预测 | 需存储统计量,对短序列敏感 |
RevIN 的独特优势:
- 可逆性:唯一支持无损反归一化的方法,确保预测结果可解释。
- 实例自适应:克服全局归一化(如 BN)对分布漂移的脆弱性。
6. 应用场景与实验结果
- 典型任务:多变量时间序列预测(如电力需求预测、股票价格预测)。
- 效果验证:
- 在公开数据集(如ETTh1、Traffic)上,RevIN 显著提升 Transformer、N-BEATS 等模型的预测精度。
- 对分布漂移场景(如COVID-19期间的突变数据)鲁棒性更强。
7. 总结与局限性
- 优势:
- 显式处理非平稳性和分布漂移。
- 兼容任意模型结构(如 LSTM、Transformer)。
- 局限性:
- 对极短时间序列(统计量估计不准)效果有限。
- 假设序列内部统计量稳定,对突变或异常值敏感。
未来方向:结合自适应归一化(如动态调整统计量)或异常检测机制,进一步提升鲁棒性。
8. 代码
class RevIN(nn.Module):
def __init__(self, num_features: int, eps=1e-5):
"""
Args:
num_features (int): 时间序列的特征维度(C)。
eps (float): 用于数值稳定性的小值。
"""
super(RevIN, self).__init__()
self.num_features = num_features
self.eps = eps
# 可学习的仿射参数
self.affine_weight = nn.Parameter(torch.ones(num_features))
self.affine_bias = nn.Parameter(torch.zeros(num_features))
def forward(self, x, mode, mask = None):
"""
Args:
x (torch.Tensor): 输入时间序列,形状为 (B, T, C)。
mode (str): 操作模式,'norm' 或 'denorm'。
Returns:
torch.Tensor: 归一化或反归一化的时间序列。
"""
if mode == 'norm':
self._get_statistics(x, mask) # 计算均值和标准差
x = self._normalize(x) # 归一化
elif mode == 'denorm':
x = self._denormalize(x) # 反归一化
else:
raise ValueError("mode 必须是 'norm' 或 'denorm'")
return x
def _get_statistics(self, x, mask):
"""计算均值和标准差"""
if torch.isnan(x).any():
if mask is None:
mask = torch.isnan(x)
else:
raise ValueError("mask is given but x still contains nan values.")
if mask is None:
self.mean = x.mean(1, keepdim=True).detach()
x_enc = x - self.mean
variance = torch.var(x_enc, dim=1, keepdim=True, unbiased=False) + self.eps
self.stdev = torch.sqrt(variance).detach()
else:
missing_sum = torch.sum(mask, dim=1, keepdim=True) + self.eps
mean = torch.sum(x * mask, dim=1, keepdim=True) / missing_sum
x_enc = x - mean
x_enc = x_enc.masked_fill(mask == 0, 0)
variance = torch.sum(x_enc * x_enc, dim=1, keepdim=True) + self.eps
stdev = torch.sqrt(variance / missing_sum)
self.mean = mean
self.stdev = stdev
def _normalize(self, x):
"""归一化"""
x = x - self.mean
x = x / self.stdev
# 应用仿射变换
x = x * self.affine_weight + self.affine_bias
return x
def _denormalize(self, x):
"""反归一化"""
# 撤销仿射变换
x = (x - self.affine_bias) / self.affine_weight
x = x * self.stdev + self.mean
return x
8.1 代码关键点
假设时序数据集的输入X∈RB∗T∗FX\in R^{B*T*F}X∈RB∗T∗F,B,T,FB,T,FB,T,F分别代表batch_size, time steps和每个时间步的特征数量。在销量预测场景中,由于新品的存在,可能某些商品的历史销量并不足TTT,这时候需要padding技术。所以需要在原始RevIN的实现上增加mask的处理。