一、摘要
本文介绍论文《Understanding Different Design Choices in Training Large Time Series Models》,这篇由多所大学成员合作的研究介绍了一种时间序列Prompt,用于提升大模型在时间序列预测任务中的性能。
译文:
受大型语言模型(LLMs)的启发,时间序列预测(TSF),这一时间序列分析中的长期任务,正在向大型时间序列模型(LTSMs)转变,旨在训练基于Transformer的通用模型用于TSF。然而,在异质时间序列数据上训练LTSMs面临独特的挑战,包括数据集之间的频率、维度和模式的多样性。最近的研究探讨并评估了各种设计选择,旨在增强LTSM的训练和泛化能力,涵盖了预处理技术、模型配置和数据集配置。在这项工作中,我们全面分析了这些设计选择,并旨在确定训练LTSM的最佳实践。此外,我们提出了时间序列提示,这是一种针对时间序列数据的新颖统计提示策略。基于我们的分析观察,我们引入了LTSM-bundle,它捆绑了我们识别出的最佳设计选择。实证结果表明,LTSM-bundle在基准数据集上相比于最先进的LTSMs和传统的TSF方法,取得了更优的零样本和少样本性能。
二、核心创新点
1、时间序列提示(Time Series Prompts)
时间序列提示是为了封装时间序列数据的综合特征而开发的,通过从整个训练集中提取全局特征集合来生成,与文本提示不同。在提取了全局特征后,作者对数据集中的所有变量和示例的全局特征值进行标准化,用于防止在训练和推理阶段出现溢出问题。
设有表示标准化之后的多变量时间序列Z(
)的全局特征,随后P作为提示,与从时间序列数据中导出的每个时间戳X进行连接。则大型时间序列模型在训练和推理阶段都将集成向量
作为输入数据。
2、序列分割(Tokenizations)
为了利用大语言模型的力量,我们需要将时间序列映射到Token上,这样才能被大模型所理解。作者通过对比最终采用了线性的Tokenization策略,利用一个可训练的线性层,将时间序列数字转为特定的序列长度,其中
指的是时间序列的长度,而K指的是预训练模型的输入大小。
此外,作者还对一些其他的训练设置进行了探讨,例如:
- 训练范式:研究完全微调、从头训练和 LoRA 三种训练范式,发现完全微调在时间序列提示和文本提示下均表现最佳,可使 LTSM-bundle 训练收敛更快,推荐使用该范式。
- 基础模型选择:评估 GPT-2(Small、Medium、Large)和 Phi-2 等预训练模型作为基础模型的效果,综合考虑后建议在 LTSM-bundle 框架中使用 GPT-2-Medium 或 GPT-2-Small 作为骨干网络。
- 数据量:通过时间序列下采样研究数据量影响,发现使用 5% 训练数据时模型效果最佳,过多或过少数据均会影响模型性能,因此推荐使用 5% 训练数据以平衡时间序列粒度和模型学习能力。
- 数据多样性:评估在不同数量数据集上训练 LTSM 的性能,发现增加数据集多样性可提升模型性能,增强训练数据广度有助于提高 LTSM 的泛化能力。