<论文>通过频率分解MoE来增强时序预测能力

一、摘要

        本文介绍发表于2025年的关于时间序列预测的论文《FreqMoE: Enhancing Time Series Forecasting through Frequency Decomposition Mixture of Experts》。

译文:

        长期时间序列预测在金融和天气预报等领域至关重要。除了在时域中使用的传统方法外,许多最近的模型将时间序列数据转换到频域,以更好地捕捉复杂模式。然而,这些方法通常使用滤波技术将某些频率信号作为噪声去除,这可能会无意中丢弃重要信息并降低预测准确性。为了解决这个问题,我们提出了频率分解混合专家(FreqMoE)模型,该模型将时间序列数据动态地分解为频带,每个频带由一个专门的专家模块处理。一个门控机制根据频率特征调整每个专家输出的重要性,并且聚合结果被输入到一个预测模块中,该模块使用残差连接迭代地细化预测。我们的实验表明,FreqMoE 优于最先进的模型,在所有测试数据集的 70 个指标中有 51 个指标实现了最佳性能,同时将所需参数的数量显著减少到 50k 以下,提供了显著的效率优势。

二、核心创新点

        作者提了一种基于频率分解的深度架构,包括一个频率分解混合专家(MoE)模块和一个频域预测模块(通过堆叠多个具有残差连接的预测块构建)。总体来说,设输入时间序列是 x,首先使用均值减法和方差缩放进行归一化,得到均值为0、方差为1的数据,然后使用快速傅里叶变换将归一化后的数据转换到频域,得到,其中,B是batch大小,C是通道数,L是序列长度,是频域表示的长度。

        接着,将频率分量划分为个不相交的区域,每个专家处理一个特定的频段。门控网络以频率分量的幅度作为输入,并使用softmax激活函数生成门控分数。专家输出使用频域门控分数进行组合,然后通过拟快速傅里叶变换转换回时域并去归一化。该模块使得模型能够从每个频段捕捉到信息并有效地管理短期和长期的时间模式。

        来自频率分解混合专家模块的输出通过几个频域预测块进行处理,每个块包含两个简单的复值线性层。每个块对傅里叶变换后的表示进行上采样,重建历史序列并预测未来序列。在进行逆傅里叶变换和去归一化之后,输出序列和输入序列之间的残差被用作下一个块的输入,即,最终的预测序列则是通过累积每个区块的预测结果来获得。

1、频率分解混合专家模块

        频率分解MoE是模型的核心组件之一。在频域中,序列以复数形式表示,其中每个分量对应于特定频率的幅度和相位。为了充分利用所有频段的信息,作者引入了专家网络,每个专家负责处理特定的频率范围。作者还提出以端到端的方式来学习频段边界,可以让模型自适应地关注最具信息量的频段。

        首先使用可学习参数对频段边界进行参数化,其中N是专家个数。每个都是一个标量值。作者应用sigmoid函数将这些参数映射到区间(0,1)。为了确保频段不重叠且共同覆盖整个频率范围,作者将归一化边界按升序排序,包括0和1作为初始和最终边界。然后,将这些归一化边界根据频域长度F映射到实际的频率索引。对于第 i 个专家,负责的频率范围定义为:

        为了确保每个专家仅处理其分配的频率范围,作者为每个专家构造了一个掩码,定义为:

        专家处理的频率分量是通过应用掩码来获得的:

        在获得每个专家的输出后,混合专家模块中的门控网络会根据输入序列的频域特征动态地聚合它们。具体来说,计算频率表示的幅度,并在通道维度上求平均,以作为门控网络的输入:

        输入G(X)通过门控网络(简单的线性层)之后会产生每个专家的权重得分。这些权重表示了每个专家对最终的聚合输出的相对贡献度。最后,计算所有专家频域输出的加权和,得到最终的频域输出,再应用逆傅里叶变换将频域信号转为时域,将输出结果传递到后续的残差连接预测模块。

2、残差连接频域预测模块

2.1 域预测模块

        论文模型中的可堆叠残差块的目的是通过捕获先前组件未解释的残差信息来迭代地细化预测。为了实现残差连接,每个块都包含两个可学习的复值线性层用于上采样,这将序列长度扩展到涵盖历史时间步和未来时间步,这个过程在频域中进行

        给定一个输入残差序列,首先使用 rFFT 将该序列转为频域信号。为了预测未来的时间步,作者对频率分量进行上采样以匹配所需的输出长度。上采样通过两步复数值线性变换完成。首先,频率分量通过一个复数线性层,接着是复数ReLU激活和随机失活,被激活后的分量随后由第二个复数线性层处理,以生成最终的上采样频率表示。在对频率成分进行上采样和变换后,将它们转换回时域,这时候产生的时域信号包括了重建的回溯序列以及对未来时间步的预测。

2.2 残差连接机制

        论文提出的模型采用残差学习机制,其中每个模块通过对来自先前模块的残差误差进行建模来迭代地细化预测。令表示可堆叠模块的初始残差输入,它是频率分解混合专家模块的输出。则第 i 个模块的残差定义为:

        每个模块使用当前的残差并产生一个包含输入和未来时间步的预测。通过堆叠多层残差块,残差值逐渐减小。最终的预测是通过累计所有模块的未来预测来获得的:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值