利用LLMs进行时间序列预测：理解和增强模型时间序列能力

LLMs在时间序列预测中的优势与局限

最新推荐文章于 2025-06-16 15:14:48 发布

原创最新推荐文章于 2025-06-16 15:14:48 发布 · 1.5k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #大模型 #语言模型 #ai #LLMs #AGI #计算机技术

近年来，大型语言模型在许多领域得到了快速发展和广泛应用。作为一个经典的机器学习任务，时间序列预测最近通过LLMs得到了提升。然而，在这一领域中，关于LLMs的偏好还存在研究空缺。本文通过将LLMs与传统模型进行比较，发现了LLMs在时间序列预测中的许多特性。例如，我们的研究显示LLMs擅长预测具有明确模式和趋势的时间序列，但面对缺乏周期性的数据集时则遇到挑战。我们通过设计提示要求LLMs告知数据集的周期来解释我们的发现。此外，还研究了输入策略，发现结合外部知识和采用自然语言释义对LLMs在时间序列预测性能方面产生了积极影响。总体而言，本研究为在不同条件下LLMs在时间序列预测中的优势和局限性提供了洞察。

论文题目：

Time Series Forecasting with LLMs: Understanding and Enhancing Model Capabilities

论文链接：

https://arxiv.org/abs/2402.10835

一、我们要回答的三个问题

1. LLMs在时间序列预测中对输入时间序列有何偏好。 为了回答这个问题，我们对真实和合成的数据集进行了实验。我们的观察揭示了LLMs在趋势或季节性强度较高的时间序列上表现更好。为了进一步辨别LLMs对输入数据特定部分的偏好，我们设计了涉及输入序列系统排列的反事实实验。我们发现LLMs对靠近输出的输入序列段非常敏感。

2. 为什么LLMs能在趋势或季节性强度较高的数据集上预测得很好？ 为了解决这个问题，我们设计了需要LLMs告知数据集周期的提示。通过实验，我们让大型语言模型多次告知数据集的周期并取中位数。我们发现大型语言模型可以准确地指出数据集的周期性。这可以解释为什么大型语言模型能够很好地预测具有高趋势或季节性强度的数据集，因为它们已经学习了这类知识。

3. 鉴于这些发现，我们的重点在于如何利用这些洞察来进一步提高模型性能。 为了解决这个问题，我们提出了两种简单的技术来提升模型性能：纳入外部人类知识和将数值序列转换为自然语言对应物。纳入补充信息使大型语言模型能够更有效地把握时间序列数据的周期性特征，而不仅仅是强调时间序列的尾部。将数值数据转换为自然语言格式增强了模型的理解和推理能力，也是一种有益的方法。这两种方法都提高了模型性能，并有助于我们理解LLMs在时间序列预测中的应用。

二、一些基础设定

我们将LLMs作为zero shot 学子者用于时间序列预测，通过将数值视为文本序列来处理。LLMs在时间序列预测中的成功很大程度上取决于数据的正确预处理和处理。我们遵循了他们的方法，这个过程涉及几个关键步骤。在使用LLMs进行时间序列预测的预处理阶段，数值被转换为字符串，这是一个关键步骤，显著影响了模型的理解和数据处理。

例如，一个序列如0.123, 1.23, 12.3, 123.0被重新格式化为"1 2, 1 2 3, 1 2 3 0, 1 2 3 0 0"，引入空格分隔数字和逗号以界定时间步骤，而省略小数点以节省令牌空间。令牌化同样至关重要，塑造了模型的模式识别能力。不同于传统方法如字节对编码（BPE），可能会破坏数值连贯性，通过空格分隔数字确保了单独的令牌化，增强了模式辨识。此外，还采用了重新缩放技术，通过调整值使特定百分位数对齐到1，以高效利用令牌和管理大输入，从而使模型能够接触到不同位数的数字，并支持生成更大的值，这证明了数据准备在利用LLMs进行时间序列分析中的微妙而关键的性质。

时间序列预测在时间序列预测的背景下，主要目标是基于前 K 步观察到的值预测接下来 H 步的值，数学表达式为：

在这里插入图片描述

受到现实世界场景中可解释性要求的激励，时间序列通常可以通过加法模型分解为趋势分量、季节分量和残差分量。趋势分量捕获数据中隐藏的长期变化，如线性或指数模式。季节分量捕获数据中的重复变化，残差分量捕获在去除趋势和季节分量后数据中剩余的变化。这种分解提供了一种量化时间序列属性的方法。

三、实验的发现

1. 在计算了皮尔逊相关系数（PCC）之后，我们观察到强度和模型性能之间存在几乎强烈的相关性，这表明当输入时间序列具有更高的趋势和季节性强度时，LLMs的表现更好。值得注意的是，与GPT-3.5-turbo-instruct相比，GPT-4取得了更高的PCC。这可能归因于GPT-4训练期间的人类反馈，因为个体可能更能意识到季节性和趋势数据。有趣的是，与原始测试序列相比，GPT-4生成的输出的QS（质量分数）有所增加。这表明GPT-4倾向于预测具有高季节性强度的时间序列，这可能为进一步的研究提供洞察。在多周期时间序列的背景下，随着周期数的增加，模型性能下降。这表明LLMs可能难以识别此类数据集中固有的多个周期，这在现实中很常见。

对于反事实分析，如图所示，当高斯噪声添加到后期段时，值明显下降。我们的发现揭示了当LLMs作为时间序列预测器时，它们对输入时间序列数据的末端更为敏感。

在这里插入图片描述

2. 为了探索LLMs在具有较高趋势或季节性强度的数据集上预测良好的现象，我们设计了实验来验证这一现象。我们设计提示，让LLMs在每次序列预测后输出预测值。实验的目标模型是GPT-3.5-Turbo，我们的提示的主要作用是进行incontext learning并要求输出周期。我们选择了八个时间序列数据集，如AirPassengersDataset，经过十次预测后统计周期值，并将这十个结果的中位数与真实周期进行比较。结果显示在表3中。根据结果，我们发现大型语言模型在一定程度上可以确定数据集的周期性。尽管每次时间序列预测的波动较大，但在AirPassenger、Sunspots和Wooly数据集上的预测相对准确，其他数据集上的预测值也接近我们的真实周期值。我们推测LLMs能够很好地预测具有高趋势或季节性强度的数据集，因为它们已经掌握了一些关于场景和数据集内容的知识。

在这里插入图片描述