LLM4STS_llm4ts代码-优快云博客

时间序列数据的大模型 (LM4TS)
- 时间序列数据的参数化模型 (PFM4TS)：专门为各种时间序列任务设计的参数化模型。尽管此领域相对新兴，现有模型可能未能完全体现通用参数化模型的潜力，但为未来发展提供了有价值的见解。
- 时间序列数据的大语言模型 (LLM4TS)：利用大语言模型解决时间序列任务，无论模型是在适应过程中进行微调还是保持冻结状态。
空间-时间数据的大模型 (LM4STD)
- 空间-时间数据的参数化模型 (PFM4STD)
- 空间-时间数据的大语言模型 (LLM4STD)

2 LARGE MODELS FOR TIME SERIES DATA

2.1 Large Language Models in Time Series

通用模型

PromptCast：基于提示的时间序列预测

作为从大语言模型视角研究通用时间序列预测的首次努力之一，PromptCast 提出了一个新颖的任务：基于提示的时间序列预测。该方法的输入和输出均为自然语言句子，提供了一种“无代码”解决方案，使得时间序列预测更为简单，而不仅仅依赖于复杂的架构设计。为此，新引入的任务还发布了一个指令数据集（PISA）。

LLMTime：zero-shot 时间序列学习

另一个相关的研究是 LLMTime，该研究表明，经过适当配置的时间序列数据标记化，LLM 能够有效地进行zero-shot 学习。这一发现强调了 LLM 在缺乏大量训练数据时的潜力。

部分冻结的 LLM 框架

为了解决缺乏大规模训练数据的问题，研究者们提出了一个统一框架，该框架基于部分冻结的 LLM，即仅微调嵌入和归一化层，而保持自注意力和前馈层不变。此方法在所有主要类型的时间序列分析任务中，包括分类、短期/长期预测、缺失值填补、异常检测、少样本和零样本预测，均取得了最先进或可比较的性能。

TEMPO：细化设计的时间序列预测

TEMPO 专注于时间序列预测，但结合了额外的细化设计，例如时间序列分解和软提示。这种方法旨在通过更精确的处理提升预测性能。

两阶段微调的 LLM

另一项研究利用 LLM 进行时间序列预测，采用两阶段微调过程：首先通过监督微调引导 LLM 适应时间序列数据，然后转向针对时间序列预测的下游微调。

新嵌入方法

另一项研究通过新的嵌入方法激活了 LLM 的时间序列能力，该方法通过实例级、特征级和文本原型对齐的方法对数据进行标记和编码，然后创建提示以传递给 LLM 执行任务。

Time-LLM：重编程时间序列

与上述方法不同，Time-LLM 提出了一种重编程时间序列的新方法，结合源数据模态和基于自然语言的提示，释放了 LLM 作为有效时间序列机器的潜力。该方法在各种预测场景中实现了最先进的性能，并在少样本和零样本设置中表现优异。同时，Time-LLM 也具备轻便高效的特点，因为它既不直接编辑输入的时间序列，也不微调基础 LLM。

领域特定模型

交通运输

时间序列预测在智能交通系统 (ITS) 中发挥着关键作用。AuxMobLCast 提出了一种新颖的管道，利用 LLM 进行交通数据挖掘，例如人类移动预测任务。该方法将人类移动数据转化为自然语言句子，从而使预训练的 LLM 能够直接应用于微调阶段，进行人类移动的预测。这项工作首次尝试微调现有 LLM 以预测交通领域的数据。

金融

近年来，文献中报道了一些专门针对金融领域的 LLM 研究。[68] 引入了一种简单有效的指令调优方法用于金融领域的情感分析。通过将基于分类的情感分析数据集转化为生成任务，这种方法允许 LLM 更有效地利用其广泛的训练和卓越的分析能力。除了 NLP 任务外，利用 LLM 的知识和推理能力进行金融时间序列预测也颇具吸引力。[109] 使用 GPT-4 进行零-shot/少-shot 推理和基于指令的微调，生成可解释的预测，尽管与 GPT-4 相比效果相对较弱。与此同时，[68] 和 [110] 采用类似方法，根据文本数据预测股价走势。

事件预测

与具有相等采样间隔的同步（常规）时间序列数据不同，事件序列是具有不规则时间戳的异步时间序列。事件序列在金融、在线购物、社交网络等领域扮演着重要角色。时间点过程 (TPPs) 已成为建模此类数据的标准方法。事件预测旨在基于过去预测未来事件的时间和类型。例如，在在线购物领域，我们希望建模用户的时间戳访问序列，并根据他们的过去购物评论预测未来的购物行为。LLM 在这种情况下可能非常有用，因为事件序列通常伴随丰富的文本信息。[112] 提出了一个建模框架，其中 LLM 进行溯因推理以辅助事件序列模型：事件模型提出未来事件的预测；在一些专家注释的提示指导下，LLM 学习为每个提议建议可能的原因；搜索模块找到与原因匹配的先前事件；评分函数学习检查检索到的事件是否可以实际导致该提议。类似的例子包括 [148] 的基于 LLM 的人类移动预测。[147] 探索了 LLM 生成自然语言中连贯且多样化的事件序列的能力，这些事件序列与多个感兴趣领域的人为策划事件有显著重叠，开辟了未来如何将显性知识（如模式）与 LLM 结合进行事件预测的研究方向。

医疗保健

医疗领域是事件序列应用最重要的领域之一。通过预测临床事件（即患者的时间戳医院就诊序列及其症状），临床模型可以帮助医生和管理人员在日常实践中做出决策。现有的基于结构化数据的临床模型因数据处理的复杂性以及模型开发和部署的难度而使用有限。[59] 从头开发了一个临床 LLM——GatorTron，使用来自非结构化电子健康记录 (EHR) 的超过 900 亿个单词的文本。GatorTron 将临床 LLM 扩展到 89 亿个参数，并提高了五个临床 NLP 任务的表现。同时，[58] 基于 NYU Langone EHR 训练了一个临床 LLM（NYUTron），并随后在广泛的临床和运营预测任务上进行了微调。NYUTron 的结果显示显著优于传统模型，展示了在医学中使用临床 LLM 阅读和提供护理指导的潜力。[113] 系统性地证明，经过少样本提示调优，LLM 能够为从可穿戴和临床级传感设备获得的数值时间序列数据提供基础，从而在健康任务上实现大幅提升，优于零-shot 推理和监督基线。在临床实践中，心电图（ECG）是最常用的非侵入性、便捷的医疗监测工具之一，协助心脏疾病的诊断。为克服有限注释数据的挑战，[114] 利用 LLM 自动生成的临床报告来指导 ECG 自监督预训练框架。

2.2 Pre-Trained Foundation Models in Time Series

通用模型

Voice2Series

利用预训练语音处理模型的表示学习能力，将语音数据作为单变量时间信号进行时间序列分类。这是首个使时间序列任务重新编程的框架。

基于对比学习的预训练模型

TF-C：包含时间基和频率基两个组件，每个组件通过对比估计单独训练，利用时间频率一致性提供自监督信号。
TS2Vec：提出了一种通用对比学习框架，以分层方式学习时间序列域中任意子序列的上下文表示，支持多变量输入，适用于多种时间序列任务。
CLUDA：是一种基于对比学习的无监督领域适应模型，具有定制对比学习和最近邻对比学习两个新组件，利用对抗学习在源和目标领域之间进行对齐，学习领域不变的上下文表示。

其他技术

STEP：包含一个预训练模型和一个空间-时间图神经网络（STGNN），旨在高效学习长期历史时间序列中的时间模式，并生成段级表示，为短期时间序列输入提供上下文信息。
MTSMAE：一种针对多变量时间序列预测的自监督预训练方法，基于遮罩自编码器（MAE），通过新的补丁嵌入减少内存使用，处理高信息密度的多变量时间序列。
SimMTM：基于遮罩建模技术，扩展了时间序列的预训练方法，恢复被遮罩时间点，通过加权聚合多个邻居来提高遮罩建模的性能。
PatchTST：一种基于transformer的长期时间序列预测模型，采用补丁机制提取局部语义信息，并允许每个系列学习自身的关注图以进行预测。
TSMixer：一种轻量级的 MLP-Mixer 模型，用于多变量时间序列预测，引入了两个新颖的在线协调头，通过层次补丁聚合的内在时间序列特性和跨通道相关性来调整和改善预测。

领域特定模型

PromptTPP：事件序列的基础预训练模型

PromptTPP 提出了一个通用方法，用于预训练事件序列的基础模型，并解决了连续模型监控的问题。该方法采用了持续学习，使得模型能够在现实约束下连续学习一系列任务，而不发生灾难性遗忘。

持续学习能力：PromptTPP 能够在面对新任务时，保持对旧任务知识的记忆，避免因新学习内容而丢失先前的知识。
连续时间检索提示池：模型集成了一个持续时间的检索提示池，允许动态获取相关提示。这些提示是小型可学习参数，存储在内存空间中。
联合优化：提示与基础模型共同优化，确保模型能够顺序学习事件流，而无需缓存过去的示例或特定任务的属性。

3 LARGE MODELS FOR SPATIO-TEMPORAL DATA

3.1 Large Language Models in Spatio-Temporal Graphs

通用模型

对比学习是一种在图像和文本领域广泛应用的表示学习方法，近年来也证明在 STG 学习中非常有效。一个代表性的例子是 STGCL，它通过对比正样本和负样本，提取复杂 STG 数据中的丰富有意义的表示，从而应用于交通预测和电力消费预测等多个领域。SPGCL 则最大化正负邻居之间的区分边界，通过自适应策略生成最优图。

气候领域

近年来，基于 AI 的气候预测模型日益受到关注。这些模型利用深度学习算法分析大量气象数据，提取对精确天气预测至关重要的复杂模式。随着预训练策略的采用，气候模型的泛化能力得到了增强。例如，FourCastNet 是一个气候 PFM，利用自适应傅里叶神经算子实现高分辨率预测和快速推理。其训练过程包括预训练和微调两个阶段。

PanGu 展现出比 FourCastNet 更强的中期预测能力，采用多时间尺度模型组合方法，利用新颖的 3D 地球专用变压器处理复杂气象数据模式。
ClimaX 是一个适应性深度学习模型，经过多样数据集训练，能够针对各种气候和天气任务进行微调，甚至涉及未见变量和时空尺度。
W-MAE 将自监督预训练方法（如遮罩自编码器）应用于气候预测，增强模型从大量未标记气象数据中提取重要特征的能力。
FengWu 通过多模态和多任务方法处理中期气候预测，采用特定模型的变压器和跨模态融合策略，设计中融入了区域自适应优化的不确定性损失。

交通领域

CPPBTR 是一个新的基于变压器的框架，专注于人群流量预测，具有独特的两阶段解码过程。在第一阶段生成初步序列，随后系统性地对每个时间步进行掩膜，并输入到变压器编码器中，以预测每个掩膜位置的精细流量。

TrafficBERT 利用受 BERT 启发的关键特性，采用双向变压器结构，能够预测整体交通流而非单个时间步，增强了模型的泛化能力。
Transportation Foundation Model (TFM) 将交通模拟引入交通预测领域，利用图结构和动态图生成算法捕捉交通系统中参与者的复杂动态和交互。这种数据驱动且无模型的模拟方法有效应对了传统系统在结构复杂性和模型准确性方面的长期挑战，为解决复杂交通问题奠定了坚实基础。

4 Temporal Knowledge Graphs

TKG 预测

TKG 预测旨在使用过去事实知识预测未来事实。[125] 通过使用 LLM 的上下文学习（ICL）方法来解决这个问题，模型以零-shot 方式生成预测，历史事实被构建为提示。[112] 同样涉及 TKG 中的事件预测任务，并在 GDELT 数据集上进行评估。

TKG 补全

补全也是一项重要任务，因为 TKG 通常存在不完整性。PPT [123] 是一个基于预训练语言模型（PLM）的新模型，通过构建不同的提示（如实体提示、关系提示和时间提示）来解决补全任务，将四元组转换为适合输入 PLM 的形式，并进行掩码预测。通过这种方式，TKG 补全任务转换为 PLM 模型的掩码令牌预测任务。

此外，[124] 是首次将 LLM 应用到电商上下文中的补全任务，提出通过提示 LLM（如 GPT-3.5 和 PaLM）为电商 KGs 标记谓词。

5 Video

5.1 Large Language Models for Video Data

当前的视频理解模型往往存在任务特定的局限性，无法全面处理多样化的任务。最近的大语言模型（LLMs）的进步，使得将自然语言处理中的序列推理能力应用于各种视频处理任务成为可能。这一领域的代表性工作包括 LAVENDER 和 VideoLLM。

VideoLLM

VideoLLM 将视频流编码为令牌序列，并利用预训练的 LLM 进行视频理解任务。该方法设计了一个精心构建的模态编码器和语义翻译器，将来自不同模态的输入转换为统一的令牌序列。然后，这一序列被输入到仅解码的 LLM 中，通过简单的任务头，VideoLLM 生成一个高效的、适用于各种视频理解任务的统一框架。

Video-ChatGPT

Video-ChatGPT 是一个专为视频对话设计的多模态模型，将适用于视频内容处理的视觉编码器与 LLM 结合，使得模型能够理解和生成与视频相关的深入讨论。

Video-LLaMA

与上述依赖语言数据的方法不同，Video-LLaMA 是一个独立于文本数据的多模态框架。它通过 Q-Former 将视觉和音频信息赋予 Llama，增强其理解视频中视觉和听觉信息的能力。Video-LLaMA 在大量视频/图像-字幕对的语料库上进行训练，以确保视觉和音频编码器的输出与 LLM 的嵌入空间对齐。

Valley

Valley 是一个视频助手，使用 LLMs 和时空池化策略从视频和图像输入中提取统一的视觉编码。它还策划了大量视觉-文本对用于预训练，并通过 ChatGPT 设计多任务指令跟随的视频数据集。

视频问答（VQA）

一系列研究文献集中在使用 LLMs 进行视频问答（VQA）。FrozenBiLM 利用冻结的双向 LLM 学习多模态输入，并通过掩码语言建模实现零-shot VQA。CaKE-LM 提出了一个问题-答案生成框架，从 LLM 中提取因果常识知识以支持因果 VQA。

VideoChat 结合了视频和图像的预训练基础模型，使用少量可调整的层与 LLM 集成，并通过两阶段轻量级训练过程进行微调。R2A (Retrieving-to-Answer) 是一个两阶段的 VQA 框架，第一阶段从通用文本语料库中检索语义相似的文本，第二阶段结合原始问题和检索文本，使用 LLM 生成答案。

在交通领域的 VQA 中，TRIVIA 提出了创新的自动字幕生成方法，作为一种弱监督形式，将交通领域知识融入广泛的视频语言模型中。

LAVILA

尽管在计算机视觉领域，使用网络规模的图像-文本数据学习视觉表示已被证明是一种强有力的工具，但与数十亿规模的图像-文本数据集相比，配对视频-文本语料库的规模相对有限。LAVILA 通过利用大语言模型的能力，提出了一种新方法来获取视频-语言表示。LAVILA 将预训练的 LLM 调整为适应视觉输入，并随后进行微调，创建自动视频叙述者。自动生成的叙述提供了诸多好处，如对长视频的全面覆盖、视觉信息与文本之间的时间同步增强，以及文本内容的显著多样化。

5.2 Pre-Trained Foundation Models for Video Data

OmniVL

Wang 等人首次提出了一个视觉-语言基础模型 OmniVL，该模型统一了图像-语言和视频-语言建模。OmniVL 能够自然支持多种任务，包括仅视觉任务、跨模态对齐任务和多模态任务。

PAXION

PAXION 旨在弥补视频理解中的知识缺口，通过将缺失的动作知识整合到冻结的视频-语言基础模型中，同时保留其通用的视觉-语言能力。这一策略提升了模型在视频理解方面的有效性。

mPLUG-2

mPLUG-2 是一个新的变压器框架，允许在单模态和跨模态任务中利用各种模块组合。它通过共享通用模块并分离特定模态的模块，有效地解决了模态纠缠问题，为选择多样化的模块以适应不同的理解和生成任务提供了灵活性，包括文本、图像和视频。

mPLUG-video

在 mPLUG-2 的基础上，Xu 等人进一步设计了一个模块化的解码器模型 mPLUG-video，该模型仅包含有限数量的可训练参数。它基于一个冻结的预训练 LLM 和 Youku-mPLUG2 构建，这使得模型在保持高效性的同时，能够灵活应对各种视频理解任务。

6 FUTURE OPPORTUNITIES

6.1 大型模型的理论分析

大型模型，尤其是大型语言模型（LLMs），主要设计用于自然语言处理，能够捕捉序列中的长期依赖关系。由于文本数据和时间数据的顺序特性，最近的研究已将 LLMs 扩展到时间序列和时空任务。这意味着，从文本数据中学习到的表示可以微调以捕捉时间数据的模式。然而，这仍然是一个较高层次的理解。像其他深度学习模型一样，LLMs 也因其复杂性而成为“黑箱”，难以理解哪些数据影响了它们的预测和决策。因此，需要对 LLMs 在时间数据中的应用进行更深入的理论分析，探讨语言数据与时间数据之间的模式相似性，以及如何有效地将其应用于具体的时间序列和时空任务，如预测、异常检测和分类等。

6.2 多模态模型的发展

许多现实世界应用中的时间序列和时空数据往往伴随补充信息，如文本描述。这在经济和金融等领域尤其有用。例如，经济预测可以通过结合文本（如新闻文章或推文）和数值经济时间序列数据来进行。因此，LLMs 可以适应学习联合表示，考虑时间数据的顺序特性及其他模态的独特特征。此外，不同模态可能具有不同的时间分辨率，LLMs 需要适应处理来自多种模态的时间数据差异，从而充分利用不同时间分辨率的信息，以提高性能。

6.3 持续学习与适应

现实世界的应用常常面临持续变化的场景。因此，需要研究模型适应非平稳环境的能力，避免对旧知识的灾难性遗忘。尽管一些研究已探讨了传统机器学习和深度学习模型中的这些问题，但关于如何使大型模型持续适应变化的时间数据，包括在线学习、适应概念漂移和处理数据中的演变模式的策略，仍然是一个未被充分探索的问题。

6.4 可解释性与解释能力

理解模型为何做出特定预测对时间序列分析至关重要，尤其在医疗和金融等关键领域。目前，对 LLMs 的内部理解仍然有限。因此，开发理论框架以理解 LLMs 学到的内容及其在时间序列数据中如何做出预测是重要的。可解释性和解释能力可以使 LLMs 更加透明，为时间序列分析提供理据，例如突出预测未来值的原因、如何将特定点视为异常，以及解释某一分类背后的原因。研究如何增强大型模型以进行时间推理和推断因果关系，包括识别因果关系的方法，这对于根本原因分析和干预规划等应用至关重要。

6.5 隐私与对大型模型的攻击

时间数据可能非常敏感，尤其在医疗和金融等应用中。当 LLMs 在此类数据上进行训练或微调时，可能会记住训练数据中的特定细节，从而导致泄露私人数据的风险。因此，有很多研究机会可以利用隐私保护技术，如差分隐私和联邦学习，以确保数据隐私，同时仍能利用 LLMs 在时间序列和时空分析中的强大能力。

6.6 模型的泛化能力与脆弱性

LLMs 通常在通用数据上进行预训练，然后在特定任务上进行微调。如果微调数据包含对抗性或噪声样本，这一过程可能会引入脆弱性。如果用于微调的时间数据未经过精心策划，模型可能会从中继承偏见或脆弱性，从而影响在现实应用中的鲁棒性。此外，虽然 LLMs 在大规模数据集上训练，但它们可能无法很好地对未见或分布外数据进行泛化。时间序列和时空数据可能会出现突发变化或趋势。如果 LLM 在训练期间未遇到类似模式，它可能会生成不可靠的输出，这强调了增强鲁棒泛化能力的必要性。