LLM4TS是由中国台湾省阳明交通大学提出的基于大语言模型的时间序列预测框架,该框架利用两阶段微调的方法使LLM适用于时序预测任务,并在多个数据集上验证了该方法的有效性。LLM4TS是较早将LLM应用于时序领域的研究,为有限数据场景下的应用提供了可行方案,也为后续研究提供了思路。
LLM4TS: Two-Stage Fine-Tuning for Time-Series Forecasting with Pre-Trained LLMs
1.背景和问题
1.1. 研究背景
多元时间序列数据普遍存在不同领域中,其中多元时间序列预测是一个重要应用。有许多研究者针对该问题展开研究:首先从时间序列数据中提取有意义的表征,然后使用这些学习到的序列表征进行预测。
鉴于可用的时序数据的规模有限,本文的目标是利用预训练过的大语言模型(LLM)进行时序数据表示学习。LLM具有强大的表示学习和少样本学习能力,但要利用LLM处理时间序列,需要解决两个关键问题:
(1) 如何将时间序列数据输入LLMs? 为了将时间序列输入到LLM,需要对齐进行tokenize,近期的研究工作(Zhang等人,2023年)强调通过"patching"的方式对时间序列、图像、音频等各类数据进行torkenize都是非常有效的。PatchTST方法)基于通道独立性的思想将多变量时间序列数据视为多个单变量时间序列,将单个序列划分成不同的patch。而一些基于transformer的时间序列预测相关的工作强调了整合时间信息可以增强模型的预测性能,因此本文提出一种新方法,使用patch和通道独立思想的同时对时序信息进行处理。
(2)如何在不破坏LLM固有特性的情况下对其进行微调使其能够适配时间序列任务?构建像InstructGPT和ChatGPT这些对话系统时,通常利用有监督微调(SFT)将模型与基于指令的数据进行对齐,使得大模型熟悉数据的格式和特性。基于此,本文提出了一种两阶段微调方法:i)首先通过SFT将模型与时间序列的特性进行对齐,引导LLM适应时间序列;ii)然后以下游预测任务为导向进一步对模型进行微调,在不破坏LLM固有特性的基础上使得模型能够更好地适配各类不同类型的数据及不同的下游任务。
本文提出了一个基于大语言模型的时间序列预测的框架——LLM4TS,主要贡献如下:
-
时间序列数据与LLM的集成:利用patch和通道独立对时间序列数据进行tokenize,提出一种新的时间信息与patch的集成方法;
-
LLM的两阶段微调:首先监督微调阶段使LLM与时间序列数据对齐,然后是专门用于时间序列预测的下游任务微调阶段;
-
为了确保LLM对时间序列数据的鲁棒性和适应性,采用两种PEFT技术,层归一化微调和LoRA;

最低0.47元/天 解锁文章
177

被折叠的 条评论
为什么被折叠?



