＜论文＞大模型也能做时间序列预测？

最新推荐文章于 2025-03-08 21:27:12 发布

CM莫问

最新推荐文章于 2025-03-08 21:27:12 发布

阅读量900

点赞数 9

分类专栏：文献简录文章标签：人工智能大模型深度学习时间序列数据挖掘

本文链接：https://blog.youkuaiyun.com/ChaneMo/article/details/144961997

版权

文献简录专栏收录该内容

24 篇文章

订阅专栏

一、摘要

本文介绍论文《Understanding Different Design Choices in Training Large Time Series Models》，这篇由多所大学成员合作的研究介绍了一种时间序列Prompt，用于提升大模型在时间序列预测任务中的性能。

译文：

受大型语言模型（LLMs）的启发，时间序列预测（TSF），这一时间序列分析中的长期任务，正在向大型时间序列模型（LTSMs）转变，旨在训练基于Transformer的通用模型用于TSF。然而，在异质时间序列数据上训练LTSMs面临独特的挑战，包括数据集之间的频率、维度和模式的多样性。最近的研究探讨并评估了各种设计选择，旨在增强LTSM的训练和泛化能力，涵盖了预处理技术、模型配置和数据集配置。在这项工作中，我们全面分析了这些设计选择，并旨在确定训练LTSM的最佳实践。此外，我们提出了时间序列提示，这是一种针对时间序列数据的新颖统计提示策略。基于我们的分析观察，我们引入了LTSM-bundle，它捆绑了我们识别出的最佳设计选择。实证结果表明，LTSM-bundle在基准数据集上相比于最先进的LTSMs和传统的TSF方法，取得了更优的零样本和少样本性能。

二、核心创新点

1、时间序列提示（Time Series Prompts）

时间序列提示是为了封装时间序列数据的综合特征而开发的，通过从整个训练集中提取全局特征集合来生成，与文本提示不同。在提取了全局特征后，作者对数据集中的所有变量和示例的全局特征值进行标准化，用于防止在训练和推理阶段出现溢出问题。

设有 $eq?P%20%3D%20%5Cleft%20%5C%7B%20p_%7B1%7D%2C..p_%7BM%7D%20%5Cright%20%5C%7D$ 表示标准化之后的多变量时间序列Z（ $eq?Z%20%3D%20%5Cleft%20%5C%7B%20z_%7B1%7D%2Cz_%7B2%7D%2C...z_%7BT%7D%20%5Cright%20%5C%7D$ ）的全局特征，随后P作为提示，与从时间序列数据中导出的每个时间戳X进行连接。则大型时间序列模型在训练和推理阶段都将集成向量 $eq?%5Chat%7Bx%7D%20%3D%20P%20%5Ccup%20X%20%3D%20%5Cleft%20%5C%7B%20p_%7B1%7D%2C...p_%7BM%7D%2Cz_%7Bt_%7B1%7D%7D%2Cz_%7Bt_%7B2%7D%7D%2C...%2Cz_%7Bt_%7BP%7D%7D%20%5Cright%20%5C%7D$ 作为输入数据。

2、序列分割（Tokenizations）

为了利用大语言模型的力量，我们需要将时间序列映射到Token上，这样才能被大模型所理解。作者通过对比最终采用了线性的Tokenization策略，利用一个可训练的线性层 $eq?f%20%3D%20%5Cmathbb%7BR%7D%5E%7B%5Cvarepsilon%20%7D%20%5Crightarrow%20%5Cmathbb%7BR%7D%5E%7BK%7D$ ，将时间序列数字转为特定的序列长度，其中 $eq?%5Cvarepsilon$ 指的是时间序列的长度，而K指的是预训练模型的输入大小。

此外，作者还对一些其他的训练设置进行了探讨，例如：

训练范式：研究完全微调、从头训练和 LoRA 三种训练范式，发现完全微调在时间序列提示和文本提示下均表现最佳，可使 LTSM-bundle 训练收敛更快，推荐使用该范式。
基础模型选择：评估 GPT-2（Small、Medium、Large）和 Phi-2 等预训练模型作为基础模型的效果，综合考虑后建议在 LTSM-bundle 框架中使用 GPT-2-Medium 或 GPT-2-Small 作为骨干网络。
数据量：通过时间序列下采样研究数据量影响，发现使用 5% 训练数据时模型效果最佳，过多或过少数据均会影响模型性能，因此推荐使用 5% 训练数据以平衡时间序列粒度和模型学习能力。
数据多样性：评估在不同数量数据集上训练 LTSM 的性能，发现增加数据集多样性可提升模型性能，增强训练数据广度有助于提高 LTSM 的泛化能力。