NeurIPS2024 | CCM:从相似性到优越性：时间序列预测中的通道聚类

最新推荐文章于 2025-12-24 22:38:14 发布

原创

最新推荐文章于 2025-12-24 22:38:14 发布 · 736 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#聚类 #数据挖掘 #机器学习

标题	From Similarity to Superiority: Channel Clustering for Time Series Forecasting
作者	Jialin Chen1, Jan Eric Lenssen2,3, Aosong Feng1, Weihua Hu2, Matthias Fey2, Leandros Tassiulas1, Jure Leskovec2,4, Rex Ying1
机构	1Yale University, 2Kumo.AI, 3Max Planck Institute for Informatics, 4Stanford University
论文	https://arxiv.org/pdf/2404.01340

【注意】由于文本格式问题，此文章没有具体公式显示，完整版详细文章内容以及更多论文分享请关注公众号：ASEpochs

摘要

近几十年来，时间序列预测引起了广泛关注。先前的研究表明，通道独立（CI）策略通过单独处理不同通道来提高预测性能，但其在未见过的实例上泛化能力较差，并且忽略了通道之间潜在的必要交互。相反，通道依赖（CD）策略将所有通道与甚至不相关和不加区分的信息混合在一起，这会导致过度平滑问题并限制预测准确性。目前缺乏一种能够有效平衡单个通道处理以提高预测性能，同时又不忽视通道间重要交互的通道策略。受时间序列模型性能提升与通道混合之间的相关性，以及一对通道的内在相似性之间关系的启发，我们开发了一种新颖且适应性强的通道聚类模块（CCM）。CCM基于内在相似性对通道进行动态分组，并利用聚类信息而非单个通道标识，结合了CD和CI策略的优点。在真实数据集上的大量实验表明，CCM可以：（1）在长期和短期预测中，分别将CI和CD模型的性能平均提升2.4%和7.2%；（2）使主流时间序列预测模型具备零样本预测能力；（3）揭示通道之间的内在时间序列模式，提高复杂时间序列模型的可解释性。

1 引言

时间序列预测在从经济、能源[1,2]、天气[3,4]到交通规划[5,6]等各个领域都引起了热潮。该任务的复杂性因季节性、趋势、数据中的噪声以及潜在的跨通道信息等因素而加剧。

尽管最近提出了许多深度学习时间序列模型[7-14]，但在预测框架中有效管理通道交互仍然是一个未解决的挑战[15,16]。先前的工作探索了两种主要的通道策略：通道独立（CI）和通道依赖（CD）策略。通道独立（CI）策略通过为每个通道设置单独的模型，在更好的预测性能方面显示出了潜力。然而，其关键缺点是在未见过的通道上的泛化性和鲁棒性有限[17]。此外，它往往忽略了各种通道之间的潜在交互。相反，通道依赖（CD）策略将所有通道作为一个整体进行建模，并捕获复杂的通道关系，但它们往往表现出过度平滑的问题，并且难以适应单个通道，尤其是当通道之间的相似性非常低时。此外，现有模型通常以CI方式处理单变量数据，忽略了时间序列样本之间的相互联系，尽管这些依赖关系在现实场景中很常见且有益，例如股票市场或天气预测[18-20]。

✅ 小结对比：

策略输入结构是否考虑通道交互优点缺点

CI（通道独立）单通道序列 ❌ 否精细建模每个通道，泛化好于简单场景忽略交互，泛化性差，训练成本高

CD（通道依赖）多通道联合序列 ✅ 是学习通道关系，全局一致性好过度平滑，个体通道预测差

策略	输入结构	是否考虑通道交互	优点	缺点
CI（通道独立）	单通道序列	❌ 否	精细建模每个通道，泛化好于简单场景	忽略交互，泛化性差，训练成本高
CD（通道依赖）	多通道联合序列	✅ 是	学习通道关系，全局一致性好	过度平滑，个体通道预测差

提出的工作

为了解决上述挑战，我们提出了一个通道聚类模块（CCM），它同时平衡了单个通道处理和捕获必要的跨通道依赖关系。CCM的灵感来自于关键观察：CI和CD模型通常依赖于通道标识信息，而依赖程度与通道之间的相似性呈负相关（分析见第4.1节）。这一有趣的现象暗示了模型在相似通道上的类似行为。因此，提出的CCM涉及将通道战略性地聚类成内聚的簇，其中簇内通道表现出更高的相似性。为了捕获这些簇内潜在的时间序列模式，我们采用了簇感知前馈网络，为每个簇分配独立的权重，并将单个通道处理替换为单个簇处理。此外，CCM在训练中学习具有表现力的原型嵌入，通过将未见过的样本分组到适当的簇中，实现对未见过样本的零样本预测。

✅ 一、Clustering 是什么？

Clustering 是聚类的意思，是一种常见的无监督学习方法。

📌 定义（通俗理解）：

Clustering 是把“相似的东西”自动分成一组的过程。

比如：

把身高和体重相近的人分在一组；

把图像风格类似的图片分为同一类；

在这里，就是把“行为模式相似的时间序列通道”分成一组。

✅ 二、那什么是 Channel Clustering？

📌 “Channel” 是什么？

在时间序列预测中，每个通道（channel）就是一个变量或一条序列。

例如：你有一个多变量时间序列，它有 5 个通道：

通道1：气温

通道2：湿度

通道3：风速

通道4：股票价格A

通道5：股票价格B

每个通道都是一个“序列”。

📌 Channel Clustering 是什么意思？

就是：根据通道的“相似性”，把它们自动分成几个组（簇），然后按组进行建模和预测。

🔍 举个例子说明：

假设你有 10 个时间序列通道：

其中 3 个是股票类（A股、B股、C股）；

2 个是天气类（气温、湿度）；

2 个是电力负载类（区域1用电量、区域2用电量）；

3 个是传感器类（温度传感器1、温度传感器2、压力传感器）。

虽然你没有提前告诉模型这些通道的“类型”，但通过分析这些通道的数值变化趋势（比如统计特征、频率、波动性），模型可以自动地把它们分成几簇：

聚类1：股票通道

聚类2：天气通道

聚类3：电力通道

聚类4：传感器通道

这就是 Channel Clustering。

✅ 三、为什么要做 Channel Clustering？

通道太多时，逐个建模太费力（CI 方法）；
一次性全建模又容易过度平滑、忽视细节（CD 方法）；

所以：

通过聚类，既可以共享相似通道的知识，又保留了一定的通道差异性，达到效率和精度的平衡。

✅ 四、小结一句话

Channel Clustering = 把相似的时间序列通道分组，每组建一个模型，共享组内知识，又避免“一个模型套所有通道”的粗糙方式。

CCM是一种即插即用的解决方案，适用于大多数主流时间序列模型。我们在四个不同的时间序列主干（即基础模型）上评估了CCM的有效性：TSMixer[7]、DLinear[8]、PatchTST[21]和TimesNet[13]。它也可以应用于其他最先进的模型以提高性能。大量实验验证了CCM在长期和短期预测基准中的优越性，平均提升幅度分别为2.4%和7.2%。此外，我们从不同公司收集股票数据，构建了一个新的股票单变量数据集。利用簇内样本的信息，CCM在动态复杂的股票市场中始终表现出更强的准确预测股票价格的能力。此外，CCM增强了时间序列主干在跨域场景中的零样本预测能力，这进一步凸显了CCM的鲁棒性和通用性。

贡献

本文的贡献包括：（1）我们提出了一种新颖且统一的通道策略，即CCM，它适用于大多数主流时间序列模型。CCM

最低0.47元/天解锁文章