利用大型语言模型赋能时间序列分析综述论文精读

最新推荐文章于 2025-06-09 23:54:15 发布

原创最新推荐文章于 2025-06-09 23:54:15 发布

· 1.1k 阅读

16 ·

版权

文章标签：

#语言模型 #人工智能 #自然语言处理

Empowering Time Series Analysis with Large Language Models: A Survey

利用大型语言模型赋能时间序列分析：综述

摘要

近年来，大型语言模型（LLM）取得了显著进展，展示了它们在各种自然语言任务中的前所未有的能力。然而，从头开始完全训练一个大型通用模型对于时间序列分析来说是具有挑战性的，这是由于时间序列数据的巨大体量和多样性，以及非平稳性导致的概念漂移阻碍了模型的持续适应和再训练。近期的进展表明，预训练的LLM可以被用来捕捉时间序列数据中的复杂依赖关系，并促进各种应用。在这篇综述中，我们系统地概述了现有的利用LLM进行时间序列分析的方法。具体来说，我们首先陈述了在时间序列背景下应用语言模型的挑战和动机，以及LLM的简要预备知识。接下来，我们总结了基于LLM的时间序列分析的一般流程，将现有的方法归类为不同的组（即直接查询、标记化、提示设计、微调和模型集成），并强调了每个组中的关键思想。我们还讨论了LLM在一般和时空时间序列数据上的应用，针对特定领域。最后，我们深入讨论了利用LLM赋能时间序列分析的未来研究机会。

1 简介

在过去的几年中，大型语言模型（LLM）取得了显著进展，推动了人工智能和自然语言处理的巨大进步。 LLM，例如OpenAI的GPT-3和Meta的Llama 2 [Touvron 等人，2023b]，不仅表现出无与伦比的能力，可以创建既连贯又与上下文相关的叙述，而且还在复杂和细致的任务中展示了其非凡的准确性和熟练程度，例如响应查询、在多种语言之间翻译句子、代码生成等等。

图1：我们综述的框架

受大型语言模型 (LLM) 成功启发，人们付出了大量努力来训练通用时间序列分析模型 [Wu 等人，2022；Garza 和 Mergenthaler-Canseco，2023] 以促进各种底层任务，例如分类、预测和异常检测。然而，这些努力受到两个主要挑战的阻碍。首先，时间序列数据可能以各种形式出现——例如单变量或多变量——大量且来自各种领域：医疗保健、金融、交通、环境科学等。这增加了模型训练的复杂性，并难以处理不同的场景。其次，当现实世界中的时间序列数据不断累积/收集时，它们通常表现出非平稳特性，这意味着时间序列数据的统计特性（如均值、方差和自相关）会随着时间推移而发生变化。这种现象在金融市场、气候数据和用户行为分析等应用中很常见，其中模式和轨迹不断发展，不会保持不变。它会导致概念漂移问题，因为目标变量的统计特性也可能随时间推移而发生变化，使得大型模型难以持续适应和重新训练 [Kim 等人，2021]。

最近，与从头开始训练通用时间序列分析模型相比，在各种时间序列应用中利用现有 LLM 的趋势越来越明显。因此，已经开发出基于应用类型不同的方法。在本次调查中，我们对利用 LLM 进行时间序列分析的现有方法进行了全面而系统的概述。如图 1 所示，我们将首先讨论 LLM 的挑战、动机和预备知识。接下来，我们将总结基于 LLM 的时间序列分析的通用流程，并介绍五种不同的 LLM 应用技术：直接查询、标记化、提示设计、微调和模型集成。我们还将讨论 LLM 在特定领域的应用。为了更好地比较，我们提供了一个综合表，总结了代表性方法、它们的建模策略、相关任务和领域（如表 1 所示）。最后，我们重点介绍了未来潜在的研究机会，以进一步推进使用 LLM 进行时间序列分析。总之，本次调查的主要贡献包括：

• 我们对基于 LLM 的时间序列分析论文进行了整理，其中涵盖了 2022 年以来的 21 种代表性方法。

• 我们系统地调查了利用 LLM 进行时间序列分析的现有方法，并根据方法论将其独特地分为五类，并讨论了它们的应用任务和领域。

• 我们讨论并强调了利用 LLM 推进时间序列分析的未来方向，并鼓励研究人员和实践者进一步研究这一领域。

2 背景

2.1 通用大型语言模型

自然语言处理的早期进展包括神经语言模型 (NLMs) [Arisoy et al., 2012] 和开创性的 LLM，如 GPT-2 [Radford et al., 2019]、BERT [Devlin et al., 2018]、RoBERTa [Liu et al., 2019] 和 XLNet [Yang et al., 2019]。最近，更强大的 LLM（例如，多模态大型语言模型 [Yin et al., 2023]）的兴起彻底改变了 AI 的使用方式，因为它们具有处理复杂任务的出色能力。我们采用与 [Zhao et al., 2023; Jin et al., 2023] 中类似的标准，将 LLM 分为两类：嵌入可见 LLM 和嵌入不可见 LLM。嵌入可见 LLM 通常是开源的，其内部状态可以访问。值得注意的例子包括 T5 [Raffel et al., 2020]、Flan-T5 [Chung et al., 2022]、LLaMA [Touvron et al., 2023a; Touvron et al., 2023b]、ChatGLM [Du et al., 2022] 等。这些开源 LLM 适用于各种下游任务，在少样本和零样本学习环境中都表现出令人印象深刻的能力，无需从头开始重新训练。另一方面，嵌入不可见 LLM 通常是闭源的，其内部状态对公众不可访问。这种类型的 LLM 包括 PaLM [Chowdhery et al., 2023]、GPT-3 [Brown et al., 2020]、GPT-4 [Achiam and et al., 2023]。对于这些模型，研究人员只能通过 API 调用提示进行推断任务。这些 LLM 可能被用于时间序列分析。

2.2 利用 LLM 进行时间序列分析

自然语言处理中大型语言模型（LLM）的快速发展揭示了序列建模和模式识别方面前所未有的能力。自然而然地，我们会问：如何有效地利用大型语言模型来推进通用时间序列分析？

本综述旨在根据对现有文献的全面概述来回答这个问题。我们认为大型语言模型可以在时间序列建模中充当灵活且高效的组件。这种灵活性体现在可用于时间序列分析的各种大型语言模型的广泛范围以及它们在时间序列分析中配置方式的多样性（第 3 节）。关于大型语言模型的能力，它们可以针对具有特定领域上下文的各种现实世界应用进行定制（第 4 节）。当然，这个领域仍然存在一些挑战，我们将在第 5 节中讨论未来的机遇。

接下来，我们将从范围和重点方面突出显示我们的综述与一些最近相关综述的区别。 Deldari [2022] 和 Ma 等人 [2023] 都包含了时间序列预训练技术的总结，其中 Deldari [2022] 专注于用于多模态时间数据的自监督表示学习 (SSRL) 方法（不仅仅是时间序列）。 Mai 等人 [2023b] 总结了用于地理空间领域的时间序列的大型预训练模型（包括大型语言模型）。 Jin 等人 [2023] 对时间序列和一般时空数据的预训练模型进行了全面的综述。与 [Jin 等人，2023；Mai 等人，2023b] 相比，我们的综述侧重于用于时间序列分析的大型语言模型，这是唯一一个根据建模策略对现有方法进行分类的综述。我们的综述还独具特色地提供了对通用方法设计和具有特定领域上下文的各种应用的详细介绍。图 2 和表 1 说明了我们的独特性。

3 时间序列分析中大型语言模型的分类

在本节中，我们将对利用大型语言模型进行通用时间序列建模的现有研究进行详细讨论，并彻底分析其组件的设计，我们将对特定领域方法的设计进行分类和简要介绍。我们还将在第 4 节中通过将它们调整到特定领域上下文中来进行详细说明。详细分类见表 1。

大语言模型的一般流程。为了将大语言模型应用于时间序列分析，采用了三种主要方法：

直接查询大语言模型（第 3.1 节）、

使用定制设计微调大语言模型（第 3.2-3.4 节）

以及将大语言模型作为特征增强手段融入时间序列模型（第 3.5 节）。

具体而言，如图 2 所示，可以利用三个关键组件来微调大语言模型：

首先，根据适当的标记化技术将输入时间序列标记化为嵌入，

其中，可以采用适当的提示来进一步增强时间序列表示。

因此，基于复杂的策略，大语言模型可以更好地理解提示增强的时间序列嵌入，并针对下游任务进行微调。

3.1 大语言模型的直接查询

PromptCast [Xue 和 Salim, 2023] 是第一项使用预训练的大语言模型以句子到句子的方式直接进行一般时间序列预测的工作。它引入了一种新的预测设置，即基于提示的时间序列预测，该设置将滞后信息和指令嵌入到提示中，并使用大语言模型的输出句子来进行预测。直接查询大语言模型在特定领域场景中 [Yu 等人，2023；Wang 等人，2023] 也可能是有益的，特别是在利用先进的预训练大语言模型（例如 GPT-4 [Achiam 等人，2023] 和 OpenLLaMA [Geng 和 Liu, 2023；Computer, 2023；Touvron 等人，2023b]）与提供相关领域知识的上下文包含提示相结合时。

虽然直接使用大语言模型进行时间序列预测可以是零样本或少样本，但基于指令的微调和思维链 (COT) [Lightman 等人，2023；Wei 等人，2022；Zhang 等人，2023b] 已被证明对推理过程有积极影响。 LLMTime [Gruver 等人，2023] 还表明，大语言模型是有效的零样本时间序列学习器，前提是在时间序列上进行适当的文本化标记。

3.2 时间序列标记化设计

怎么标记化似乎没有很清晰地写

上述工作 [Xue 和 Salim, 2023；Yu 等人，2023；Gruver 等人，2023] 将时间序列数据的数值转换为基于字符串的标记，以便大语言模型能够将时间序列作为自然语言输入无缝地进行编码。在接下来的这一节中，我们将专门关注标记化设计，以更有效地表示时间序列数据。在实际应用中，时间序列分析经常遇到分布偏移的挑战。为了解决这个问题，主要的工作在将时间序列数据标记化之前采用通道独立性和可逆实例归一化（RevIN）[Kim 等人，2021]。

时间序列的补丁表示[Nie 等人，2023] 在基于 Transformer 的模型时间序列分析中展现出可喜的结果。

补丁标记化设计保留了数据的原始相对顺序，并将局部信息聚合到每个补丁中。一种适合所有 (OFA) [Zhou 等人，2023]、LLM4TS [Chang 等人，2023]、TEST [Sun 等人，2024]、TEMPO [Cao 等人，2024] 和 Time-LLM [Jin 等人，2024] 主要采用这种方法对时间序列数据进行标记化。为了协调数值数据和自然语言的模态，TEST [Sun 等人，2024] 引入了一个辅助损失，以增强时间序列标记的嵌入与选定文本原型之间的余弦相似性，并确保相似时间序列实例在文本原型空间中的邻近性。出于类似的目的，Time-LLM [Jin 等人，2024] 提出使用多头注意力机制来将补丁时间序列表示与通过线性探测获得的预训练文本原型嵌入对齐。具体来说，Time-LLM 通过以下方式重新编程每个注意力头中的时间序列补丁：

时间序列与文本的对齐

加性 STL 分解的核心成分

在加性模型下，时间序列 yt 被分解为三个主要部分：

yt=Tt+St+Rt

其中：

Tt：表示趋势成分，反映时间序列中长期的变化趋势。
St：表示季节性成分，反映在一定周期内重复出现的波动。
Rt：表示残差成分，反映趋势和季节性之外的随机波动或噪声。

3.3 提示设计

PromptCast [Xue 和 Salim，2023] 为 LLM 时间序列预测开发了基于模板的提示，而一些方法 [Yu 等人，2023；Xue 等人，2022a；Wang 等人，2023；Liu 等人，2023] 通过整合 LLM 生成的或收集的背景信息来丰富提示设计，这突出了上下文包含提示在现实世界应用中的重要性。除了背景和指令提示之外，Time-LLM [Jin 等人，2024] 还添加了时间序列数据的统计信息，以促进时间序列预测。与固定且不可训练的提示相比，软提示和可训练的提示使 LLM 更容易理解和与输入对齐 [Lester 等人，2021]。前缀软提示是特定于任务的嵌入向量，根据 LLM 输出和基本事实的损失进行学习。

软提示，也称为“软嵌入”或“连续提示”，指的是将文本提示转化为可以训练的连续嵌入向量。这些嵌入向量位于模型的输入空间内，与文本不同，它们不直接对应于自然语言单词。软提示被引入到模型的输入层，并在训练过程中根据特定任务进行调整。

前缀软提示是一种特定的可训练提示方式，它是在模型输入前添加一组特定于任务的嵌入向量（前缀）。这些嵌入会根据任务输出和基本事实的损失函数进行优化，以帮助模型更准确地理解任务上下文。

TEST [Sun 等人，2024] 使用均匀分布、下游任务标签的文本嵌入或词汇表中最常见的词来初始化软提示。

均匀分布初始化：这种方法是用均匀分布生成的随机数作为软提示的初始嵌入。这就相当于给提示赋予一个完全随机的初始状态，让模型通过训练来逐渐优化和调整这些随机值。

下游任务标签的文本嵌入初始化：这种方法是用下游任务标签的文本嵌入来初始化软提示。即，把目标任务（下游任务）的标签（如“积极”“消极”）文本转化为嵌入向量，并将这些向量用作提示的初始值。

词汇表中最常见的词初始化：这种方法通过选择词汇表中最常见的词的嵌入来初始化软提示。因为最常见的词（如“the”“a”）往往在模型的训练数据中频繁出现，模型可能对这些嵌入向量已有较好的理解，所以用这些常见词的嵌入可以提供一种比较中立的初始状态。

TEMPO [Cao 等人，2024] 专注于基于检索的提示设计。与 L2P [Wang 等人，2022] 类似，它首先引入一个共享的提示池，以不同的键值对的形式存储，然后通过相似性分数匹配机制为微调选择最具代表性的软提示。

共享的提示池，这个池中存储了各种不同的提示，这些提示可以是针对不同任务、不同问题的模板或者向量表示。

相似性分数匹配机制来为当前任务选择最具代表性的提示，如相似性分数

3.4 微调策略

微调预训练的 LLM 对利用 LLM 的强大模式识别和推理能力来促进下游任务至关重要。一些现有作品选择直接微调预训练的 LLM（单阶段）以进行时间序列分析。主要区别在于微调过程中模块参数的更新方式。作为一项标准做法 [Lu 等人，2022; Houlsby 等人，2019]，OFA [Zhou 等人，2023] 微调了位置嵌入和层归一化层，并冻结了自注意力层和前馈神经网络 (FFN)，因为它们包含大部分学习到的知识。 LLM4TS [Chang 等人，2023] 和 TEMPO [Cao 等人，2024] 进一步使用低秩自适应 (LoRA) [Hu 等人，2021] 微调自注意力模块，

除了单阶段微调，LLM4TS [Chang 等人，2023] 提出了一个两阶段微调策略，以使 LLM 适应时间序列数据。第一阶段是监督的自回归微调，其中主干模型根据一系列补丁作为输入来预测连续的补丁。此外，在第二阶段，一半的时期用于训练最终的线性层，一半的时期用于联合训练所有参数，以适应特定的下游预测任务。

3.5 将 LLM 集成到时间序列模型中

与其直接查询或微调时间序列 LLM 来生成输出，一些研究使用冻结的 LLM 作为能够增强时间序列特征空间的组件。冻结的 LLM 可以作为多阶段建模中的一个功能强大的功能，它提供对数据的中间处理或前一个组件的输出，并将它馈送到随后的神经网络 [Xue 等人，2022a；Shi 等人，2023] 或回归分析 [Lopez-Lira 和 Tang，2023]。特别是，LLM 可以有效地应用于时间序列分析的多模态自监督框架中。在这里，来自时间序列数据和 LLM 生成的文本嵌入被用作正负对，以通过对比损失优化来细化模型 [Sun 等人，2024；Li 等人，2023]。由于 LLM 固有的理解自然语言的能力，它们也非常适合在存在相关外部文本时，为下游多元时间序列建模生成复杂的系列间依赖关系。 LA-GCN [Xu 等人，2023] 和 Chen 等人 [2023b] 使用 LLM 从特定领域的文本中学习多元时间序列的拓扑结构。

4 时间序列 LLM 的应用

本节回顾了 LLM 在一般和时空时间序列数据上的现有应用，涵盖了通用和特定领域的领域，包括金融、交通、医疗保健和计算机视觉。

4.1 一般时间序列分析

通用应用

上述时间序列 LLM 已在涵盖能源、交通、电力、天气、疾病、商业、航空和安全等广泛的基准数据集上进行了评估 [Zhou 等人，2023；Sun 等人，2024；Gruver 等人，2023；Xue 和 Salim，2023；Cao 等人，2024；Chang 等人，2023；Spathis 和 Kawsar，2023；Jin 等人，2024]。任务包括预测、分类、插补和异常检测。这些通用建模方法可以通过特定知识定制到每个领域。

虽然这些应用程序是为结构化时间序列数据设计的，但最近的一些研究已经探索了LLMs用于一种具有不规则性的自然观察到的时间数据类型——事件序列数据。 LAMP [Shi 等人，2023] 首先提出将一个事件预测模型与一个能够对现实世界事件进行溯因推理的LLM集成在一起。在提议的框架中，事件候选预测是使用预训练的基础事件序列模型从历史事件数据（时间、主题和对象）中生成的，并且LLM被提示建议可能的因果事件。此步骤通过几个专家标注的示例进行指令调优。为了检索相关事件，这些事件将被构建为嵌入，并根据余弦相似度分数与过去事件进行匹配。

最后，一个具有连续时间Transformer [Xue 等人，2022b] 的能量函数学习对预测进行评分并输出具有最强检索证据的事件。提议的框架在现实世界基准上优于最先进的事件序列模型，表明LLMs进行事件推理的优越性能。同样，Gunjal 和 Durrett [2023] 试图使用LLM直接用自然语言构建事件知识（模式）的结构化表示，以在一组人工策划的事件中实现高召回率。在实验中，考虑了多个LLMs，并在不同的数据集，这突出了为获得更高的事件覆盖率而设计复杂提示的重要性。

能量函数是一种评分机制，用来评价模型预测的“好坏”

[1] github.com/kimmeen/t… [2] github.com/DAMO-DI-M… [3] openreview.net/forum…（补充材料）[4] github.com/HaoUNSW/P… [5] github.com/ngruver/l… [6] github.com/iLampard/… [7] github.com/ZihanChen… [8] github.com/nyuolab/N… [9] github.com/cruise research group/AuxMobLCast [10] github.com/xlwang233… [11] github.com/damNull/L…

表 1：时间序列LLMs分类。数据类型 TS 表示一般时间序列，ST 表示时空时间序列，前缀 M- 表示多模态输入。任务条目 Multiple 包括预测、分类、插补和异常检测。 Query 表示直接查询整个LLMs以获取输出，Token 表示时间序列标记化的设计，Prompt 表示文本或参数化时间序列提示的设计，Fine-tune 表示LLMs参数是否更新，Integrate 表示LLMs是否作为最终模型的一部分集成到下游任务中。代码可用性在2024年1月31日进行评估。

金融

近期现有文献中的一个趋势突出了专门用于金融应用的 LLM 的出现。 Yu 等人[2023] 侧重于通过整合多模态数据（包括历史股价、生成的公司简介和来自 GPT-4 的每周主要新闻摘要）来完成股票收益预测任务。本文基于设计的提示，在 GPT-4 上测试了基于指令的零样本/少样本查询（使用 COT 方法的有效替代方案），以及在 Open LLaMA 上进行的基于指令的微调。结果表明，微调后的 LLM 能够通过分析金融数据的不同模态的信息来做出决策，从而提取有意义的见解并产生可解释的预测。同样，Lopez-Lira 和 Tang [2023] 通过使用新闻标题直接查询 ChatGPT 和其他大型语言模型以进行股票市场收益预测。对推荐分数进行了下一日股票收益的线性回归。观察到分数与后续收益之间存在正相关关系，这证明了 LLM 理解和预测金融

COT方法：思维链方法

时间序列的潜力。

Xie 等人[2023] 进行了一项广泛的研究，通过查询 ChatGPT（带有设计的提示和 COT 替代方案）来测试其在多模态股票走势预测方面的零样本能力。实验是在包含股票价格和推文数据的三个基准数据集上进行的。有趣的是，即使 ChatGPT 展示了其有效性，但其性能在不同数据集之间存在差异，甚至比简单的传统方法表现更差。观察到的局限性表明，在金融环境中需要专门的微调技术（例如，上面提到的 Yu 等人 [2023]）。

除了直接查询或微调之外，Chen 等人[2023b] 提出了一个框架，该框架使用外部 LLM 作为多模态股票走势预测的特征增强模块。具体来说，ChatGPT 首先通过在每个时间步提示新闻标题来生成公司不断发展的图结构，之后将公司的静态特征、推断出的结构和历史股价输入 GNN 和 LSTM 以进行价格走势预测。本文还对投资组合表现进行了评估，结果显示其具有更高的年化累积回报率、更低的波动率和更低的最大回撤，这表明 LLM 在金融应用中的有效性。

我们还承认了最近的研究工作，这些工作致力于开发金融 LLM，其中文本输入包括时间信息 [Wu 等人，2023； Xue 等人，2023； Zhang 等人，2023a]。然而，这些模型更侧重于 NLP，其任务包括金融情绪分析、金融问答和命名实体识别。因此，这些研究与我们的调查关系不大。

医疗保健

最近的医疗保健研究强调了 LLM 在理解多模态医疗上下文（包括生理和行为时间序列，如脑电图 (EEG)、心电图 (ECG) 和电子健康记录 (EHR)）方面的能力。 METS [Li 等人，2023] 框架旨在将 LLM 集成到 ECG 编码器分类中。该模型包含一个基于 ResNet1d-18 的 ECG 编码器，以及一个冻结的大型临床语言模型 ClinicalBert [Huang 等人，2020]，该模型在 MIMIC III 数据集的所有文本上进行了预训练。多模态自监督学习框架用于对来自同一患者的配对 ECG 和文本报告进行对齐，同时通过余弦相似度对比未配对的报告。在零样本测试阶段，从离散 ECG 标签构建的医疗诊断语句被馈送到 ClinicalBert，并且 ECG 嵌入和文本嵌入之间的相似度将用于 ECG 分类。本文首先证明了基于 LLM 的自监督学习在多模态医疗环境中的有效性。

Jiang 等人 [2023] 提议开发一个通用临床 LLM，即 NYUTron，该模型在 EHR 上进行训练，随后在三个常见的临床任务和两个操作任务（例如再入院预测、住院死亡率、合并症指数、住院时间以及保险拒赔状态）上进行微调。在此框架中，临床笔记和特定于任务的标签从 NYU Langone EHR 数据库中查询，用于预训练一个带有掩码语言建模目标的 BERT 模型，并执行后续微调。训练后的模型在所有任务上的表现都优于传统基准，表明了在临床文本上训练的 LLM 的泛化能力。请注意，一项类似的工作 [Yang 等人，2022] 也旨在从头开始构建一个大型临床语言模型，但该模型更针对临床 NLP 任务，因此并不在我们讨论的中心。

EHR 指的是 Electronic Health Record（电子健康记录）

除了医疗保健 LLM 的发展之外，医疗保健数据集还为我们提供了其他见解。例如，Liu 等人 [2023] 在可穿戴设备和医疗传感器记录上测试了预训练的 PaLM [Chowdhery 等人，2023]，并针对多种医疗任务（心血管信号分析、身体活动识别、代谢计算和心理健康）采用了三种设置：零样本、提示工程和提示调优。他们的结果强调了医疗时间序列对于在少样本情况下提高医疗语言模型能力的重要性。同样，Spathis 和 Kawsar [2023] 提供了一个关于流行 LLM 在移动健康传感数据上的词元化的案例研究，其中识别了模态差距，并提出了潜在的解决方案，如提示调优、模型嫁接（通过训练好的编码器将时间序列映射到与文本相同的词元嵌入空间），以及为混合时间序列和文本数据设计新的词元器。

4.2 时空时间序列分析交通

在 ST-LLM [Liu 等人，2024] 中，提出了一种时空词元化组件，使 LLM 适合交通预测任务，其中包含外生信息（例如，一天中的小时，一周中的某一天）的输入通过逐点卷积和线性投影进行编码和整合。此外，利用了部分冻结训练策略，在微调过程中解冻最后几层中的多头注意力，以有效处理时空依赖关系。除了通用设置外，ST-LLM 在少样本和零样本预测场景方面也显示出优势。除了预测之外，时空插补最初由 GATGPT [Chen 等人，2023a] 探索，它利用给定的交通网络拓扑结构以及 LLM。它利用可训练的图注意力模块 [Veliˇ ckovi´ 等人，2018] 来增强不规则时空输入的嵌入，该嵌入通过 1D 卷积和额外的位置编码进行处理。因此，预训练的 LLM 可以理解给定的空间相关性，并可以针对插补任务进行微调。

人类流动性

Xue 等人 [2022a] 首次利用非数值范式对人类流动性数据进行时空预测。具体来说，设计了一个移动提示，包含情景兴趣点 (POI)、时间信息和移动数据，并用于查询预训练的 LLM 编码器，在此基础上，利用提示嵌入和移动数据的数值词元来微调解码器以生成预测词元。建立在全连接层之上的辅助 POI 类别分类任务有助于将模型训练规范化为情景预测并提高性能。 LLM-Mob [Wang 等人，2023] 没有使用提示嵌入作为特征增强，而是直接查询 LLM，不仅是为了预测人类移动，也是为了根据精心设计的提示进行解释。它将长期（即历史停留）和短期移动模式（即最近的移动）的特定领域知识整合到包含上下文的提示设计中。大语言模型 (LLM) 被引导以理解移动数据背后的上下文，并生成准确的预测以及合理的解释，而无需毫无根据的推测。

计算机视觉

最近的一项关于基于骨骼的动作识别研究 [Xu 等人，2023] 也表明了 LLM 作为计算机视觉中一种有效的特征增强方法的重要性。受 LLM 捕获底层知识、提供推理和分析骨骼序列中动作的潜力的启发，本文将 LLM 整合到生成忠实的结构先验和动作关系中，以帮助时空建模。所有关节的名称和所有动作标签的名称都输入到预先训练的 BERT 中以获取文本嵌入，基于此，骨骼拓扑的每条边通过两个关节质心的欧几里得距离计算，聚合所有动作类别，而动作关系的每条边以相同的方式通过聚合所有关节维度来计算。 LLM 编码的语义关系可以通过图卷积增强时空建模，并提高下游分类性能。

5 未来的研究机会

使用 LLM 的时间序列分析是一个新兴且快速发展的研究领域。尽管该领域取得了重大进展，但仍存在许多挑战，为研究提供了许多机会。在本节中，我们重点介绍重要的研究方向：

• 标记化和提示设计。标记化在捕获输入时间序列数据的时态动态方面起着基础性作用。现有技术要么依赖单个时间戳，要么依赖时间步长块来执行标记化，这可能不足以对一般或特定应用程序的时间序列进行编码。因此，开发能够更好地捕获时态动态并促进底层应用程序的新型标记化方法非常重要。例如，[Rasul 等人，2023] 采用滞后特征，其中滞后来自一组适当的滞后索引，这些索引对应于时间序列数据语料库中的季度、月度、每周、每日、每小时和秒级频率。基于适当的标记化，研究如何设计更好的提示以进一步提高模型性能也同样重要。例如，我们可以基于 [Wang 等人，2022] 开发一种提示学习架构，以学习特定任务的更好提示。

滞后特征：可以添加一些滞后时间点的温度值作为特征。例如，使用前一天同一时间的温度、前一小时的温度，或前一周同一时间的温度，作为预测未来温度的滞后特征。这些滞后特征帮助模型了解时间序列中的周期性模式。

• 可解释性。基于 LLM 的时间序列分析的现有方法旨在开发更好的标记化、提示设计、微调策略，并将它们整合在一起以提高模型性能。但是，这些模型通常是黑盒模型，因此其输出缺乏可解释性。在某些应用中，解释模型输出的理由以使其可信至关重要。为此，我们可以探索基于原型的和基于梯度的方法来为 LLM 的输出提供解释。我们还可以利用知识蒸馏来训练一个可解释的学生模型 [Mai 等人，2023a] 以增强 LLM 的可解释性。

学生模型通常是个简单的可解释性的模型

• 多模态。时间序列数据可能与来自其他来源的数据相关联。例如，在医疗保健中，我们不仅可以收集持续监测的心率和血压（时间序列）以及病历（文本和表格数据），还可以收集 X 光片（图像）。在这种情况下，重要的是研究如何通过 LLM 整合多模态输入，如何在嵌入空间中对齐不同的输入模态，以及如何相应地解释输出。

• 领域泛化。基于 LLM 的时间序列分析的主要挑战之一是领域泛化，其目标是将从一个或多个源域学习到的模型泛化到未见的目标域。因此，利用适当的时间序列增强技术、学习跨域不变的时间特征（即所有域共有的共享时间动态或结构）或元学习是至关重要的，元学习旨在快速适应新的时间序列任务，这些任务来自目标域的示例有限。

• 时间序列 LLM 的缩放定律。大语言模型 (LLM) 研究的一个关键方向是理解其缩放定律，其目的是学习描述 LLM 大小增长 (例如，参数数量) 如何影响其性能的模式。基于时间序列数据，还必须验证现有的缩放定律是否仍然有效，无论是基于零样本学习、提示学习、微调 LLM 还是集成，这些都将针对特定时间序列任务和应用进行调整。

• 时间序列 LLM 作为代理。基于 LLM 的时间序列分析可以捕捉输入时间序列的时态动态，因此可用于协助决策过程。通过分析大量时间序列数据及其相关的操作或奖励，LLM 可以根据历史数据预测结果，并根据当前状态总结潜在选项。作为代理，时间序列 LLM 可以根据用户偏好、历史记录或上下文进行调整，以提供更个性化的预测和决策。它们还可以充当中间人或促进者，以无缝集成到各种系统和数据源中，以收集相关信息、启动操作并提供更广泛的服务。

• 偏差和安全性。 LLM 在从互联网和其他来源收集的大规模数据集上进行训练，这些数据集不可避免地会涉及训练数据中的偏差。因此，LLM 不仅可能复制偏差，而且还可能放大偏差。为了缓解这个问题，我们应该考虑在训练集中包含各种数据，以减少潜在偏差。我们还可以开发算法来检测、评估和纠正 LLM 输出中的潜在偏差。同时，对于时间序列 LLM 提供准确可靠的输出至关重要，尤其是在医疗保健和电力系统等关键任务系统中。我们应该对各种潜在场景进行严格测试，以确保 LLM 输出的可靠性和安全性。此外，我们应该持续跟踪 LLM 在实际应用中的性能，并纳入用户反馈以提高安全性和可靠性。