kaggle竞赛宝典 | 时序表示学习的综述!

本文来源公众号“kaggle竞赛宝典”,仅用于学术分享,侵权删,干货满满。

原文链接:时序表示学习的综述!

1  介绍

本文综述了时间序列数据中的通用表示学习方法,提出了一种新颖的分类方法,并讨论了其对提高学习表示质量的影响。文章全面回顾了各种神经网络架构、学习目标和数据相关技术,并总结了常用的实验设置和数据集。

此外,本文还讨论了未来研究方向,以帮助研究人员更好地设计先进的通用时间序列表示学习方法。研究挑战包括预测、分类、外生回归、聚类和检索。未来工作将关注提高表示学习品质,降低计算成本,并探索更有效的模型:图神经网络(GNN)适用于难以在欧几里得空间中表示的数据,如图表和时空数据。基于注意力的网络可以提供更多上下文信息,提高模型学习表示能力。神经常微分方程(NeuralODE)是一种定义连续时间模型的方法,将隐藏状态作为ODE初值问题的解来定义。神经架构方法可以通过组合基本构建块或从头设计神经架构来改善时间序列变量间的时间依赖性和相互关系的程度。研究可分为基础块组合和创新设计两类。

图1 时间序列表示方法的基本概念

图2 关键设计元素和下游评估协议

表1 本文与相关论文调查范围的对比

图3 选定的论文定量总结

表2 通用时间序列表示学习分类

2  准备工作

2.1  定义

时间序列。时间序列X是一组按时间顺序排列的数据点序列,每个数据点包含n个变量,序列长度为c。当n=1时,为单变量时间序列;否则,为多变量时间序列。音频和视频数据是多维时间序列的特殊情况。时间间隔通常为等间隔,表示任何可测量的量,如温度、销售数字或随时间变化的现象。

不规则采样时间序列。指的是观察间隔不一致或不规则排列的时间序列,如图4所示。这种情况通常在数据随机收集或事件不规则发生时出现,如传感器故障导致的不同观察间隔。因此,(x1,x2)和(x2,x3)之间的时间间隔可能不相等。

时间序列表示学习。给定原始时间序列X,目标是学习一个编码器e^,一个非线性嵌入函数,将X映射到隐空间中的表示向量Z = (z1, ..., zc)。Z长度可与X相同或更短。若c = n,Z则为每个t的特征向量表示;若c < n,Z为X的压缩版本,通常n为1,为系列表示。

评估表示学习品质的核心是看它是否能助力下游任务,无论是否需要微调。获取隐含表示Z后,我们通过它在下游任务中的实际性能来评估。常见的下游任务包括:

预测。时间序列预测(TSF)是通过建模历史观测的动态和依赖关系来预测时间序列未来值的过程。根据预测范围n,可进行短期或长期预测。给定时间序列X,TSF预测最可能发生的未来n个值(xT+1,...,xT+n)。

分类。时间序列分类(TSC)旨在将预定义的类标签分配给时间序列。数据集D={(Xi, yi)},其中Xi是时间序列,yi是独热标签向量。若Xi属于类j,则yi的第j个元素为1,否则为0。TSC在D上训练分类器,学习区分不同类别的特征。当新数据集D'输入时,分类器自动确定每个时间序列的类别。

外生回归。时间序列外生回归(TSER)是一种用于估计时间序列之间关系的方法,主要用于预测一个或多个变量对另一个或多个变量的影响。该方法通常使用机器学习算法进行训练和预测。

聚类。时间序列聚类(TSCL)旨在将一组时间序列X={X_i}(i=1,...,N)划分为一组簇G={C1,...,C_i,C_|G|},通过最大化簇内时间序列的相似性和簇间时间序列的差异性。形式上,对于任意两个时间序列X_i和X_j,若它们属于同一簇,则相似度度量函数𝑓𝑠(X_i,X_j)远大于𝑓𝑠(X_i,X_i)。

分割。时间序列分割(TSS)是一种为时间序列的子序列分配标签的方法。子序列由起始偏移量X_c到结束偏移量e的连续时间步骤中的观察值组成。在状态转移中,变化点是一个偏移量,表示相对于时间序列中的状态变化。TSS在时间序列中找到一组有序的变化点序列,确定所有变化点的数量和位置后,为时间序列中的每个段设置起始和结束偏移量。

异常检测。时间序列异常检测(TSAD)用于识别时间序列中显著偏离正常行为的异常时间点。该过程通过学习正常行为的表示,计算未见过的时间序列中所有值的异常分数,并通过与预定义阈值比较来判定异常。如果异常分数超过阈值,则该时间点被视为异常,否则为正常。

缺失值填补。时间序列填补(TSI)用现实值填补时间序列缺失值,便于后续分析。给定时间序列X和二进制变量𝑀,若𝑚t=0则t缺失,否则被观察。TSI生成的预测值表示为ˆX,填补后的时间序列Ximputed=X⊙𝑀+ˆX⊙(1−𝑀)。

检索。时间序列检索(TSR)是从数据集中找出与查询时间序列X_q最相似的一组时间序列。通过使用相似度度量函数𝑓𝑠(·,·),在给定的数据集或数据库中,找到包含𐰾个时间序列的最相似列表Q={X_i} 𝑖=𐰾。

我们通常使用原始时间序列X的定义。执行下游任务时,我们可以使用相应的表示Z=𝑓𝑒(X)࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值