利用自编码器在时间序列中进行无监督可解释模式发现
1. 引言
在时间数据中进行无监督模式发现是一个重要的数据挖掘课题,在金融、生物学和视频分析等众多领域都有应用。在某些应用中,模式仅用作分类特征,分类准确率是唯一的评判标准。而本文关注的应用场景中,模式还可用于数据分析、数据理解以及新奇或异常检测。
时间序列并非都具有相同的性质,本文聚焦于多元时间序列这一复杂情况,其观测值是不同重复现象组合的结果,这些现象可能相互重叠。例如交通视频中多辆车的活动导致图像序列的变化,或者总电力消耗是多种电器使用的综合结果。与数据挖掘领域的许多技术不同,本文的目标不是列出数据中所有重复模式及其频率,而是通过有限且未知数量的重复模式及其在数据中的出现时间来重建整个时间文档,即对多元时间序列进行解混,以恢复其如何分解为具有时间结构的重复模式。按照相关约定,我们将时间模式称为 motif,将输入的多元时间序列称为时间文档。
人工神经网络(或深度学习架构)在过去十年中变得非常流行,在图像分类、语音识别和自然语言处理等领域取得了令人瞩目的成果。自编码器是一种用于学习数据压缩、分布式表示的人工神经网络,通常用于降维,是一种无监督学习方法,其隐藏层包含输入数据的表示,能够在尽可能少丢失信息的情况下对数据进行压缩和解压缩。由于数据具有时间特性,模式发现任务本质上是卷积性的,因为需要识别 motif 及其出现时间,所以本文将重点关注卷积自编码器。然而,虽然卷积自编码器适用于分类等判别任务,但它捕获的模式往往缺乏可解释性且存在相关性。
本文使用卷积自编码器进行可解释 motif 的发现,并做出以下贡献:
- 证明标准卷积自编码器的可解释性有限。
- 引入自适应修正线性单元(AdaR
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



