2022 NeurlPS 哈佛大学
论文地址:https://arxiv.org/pdf/2206.08496.pdf
代码地址:https://github.com/mims-harvard/TFC-pretraining
1. 简介
1.1 动机
在NLP、CV等领域,所有数据都存在一定的先验假设,比如在NLP中,所有数据集都遵循特定的语法规则。然而,在时序预训练任务中,面临一个难点,不同领域数据集不太好找到一个共同的先验假设,因为不同数据集的频率、周期性、平稳性差异都很大。这导致了在时序领域做预训练和迁移学习的难度。
1.2 本文思路和贡献
本文提出了一个基本假设:一个时间序列的频域表示和时域表示应该在时序表征隐空间中相近。基于这个假设,本文提出了Time-Frequency Consistency (TF-C)的自监督表示学习架构,综合考虑序列在时域和频域的表征,进而更好的进行预训练学习。
2. 问题定义
3.模型
3.1 Time-based Contrastive Encoder
首先利用多种时间序列数据增强手段,生成每个时间序列的不同增强版本。然后将时间序列输入到Time Encoder,分别得到时间序列不同版本在时域的表征,让一个时间序列和其增强的结果表示相近,和其他时间序列远离。loss函数如下:
3.2 Frequency-based Contrastive Encoder
整体思路与时域类似。首先获取到时间序列的频域表示,然后通过不同的数据增强方法得到增强表示,然后经过Frequency encoder,分别得到一个时序的多种表征。相同时序的不同表征应该相近,不同时序的表征应该远离,loss定义如下:
3.3 Time-Frequency Consistency
基于时域和频域表示在隐空间的一致性假设。论文提出了一种衡量时域表示和频域表示距离的loss。
4. 实验
ont-to-one实验:在一个数据集上预训练,在另一个数据集上finetune
One-to-Many实验:一个数据集上预训练,在多个数据集上finetune