时间序列数据中的变点检测与在线度量学习方法
时间序列数据中的变点检测
在时间序列数据分析中,变点检测是一项关键任务,它有助于我们识别数据中发生显著变化的位置,这在许多领域如金融、医疗、工业监控等都有广泛应用。
问题表述
设 $y(t) \in R^d$ 是 $t$ 时刻的 $d$ 维时间序列样本。定义 $Y(t) := [y(t)^{\top}, y(t + 1)^{\top}, \ldots, y(t + k - 1)^{\top}]^{\top} \in R^{dk}$ 为 $t$ 时刻长度为 $k$ 的时间序列子序列,其中 $^{\top}$ 表示转置。我们将子序列 $Y(t)$ 视为一个样本,而非单个点 $y(t)$,这样可以自然地融入时间相关信息。设 $Y(t)$ 是从 $t$ 时刻开始的 $n$ 个回顾性子序列样本的集合:$Y(t) := {Y(t), Y(t + 1), \ldots, Y(t + n - 1)}$。
对于变点检测,我们考虑两个连续的段 $Y(t)$ 和 $Y(t + n)$。我们的策略是计算 $Y(t)$ 和 $Y(t + n)$ 之间的某种不相似度度量,并将其作为变点的可能性。具体来说,不相似度越大,该点越有可能是变点。现在需要解决的问题是应该使用哪种不相似度度量以及如何从数据中估计它。
基于密度比估计的变点检测
我们使用如下形式的不相似度度量:$D(P_t \parallel P_{t + n}) + D(P_{t + n} \parallel P_t)$,其中 $P_t$ 和 $P_{t + n}$ 分别是 $Y(t)$ 和 $Y(t + n)$ 中样本的概率分布,$D(P
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



