DSCo:用于时间序列分类的语言建模方法
1. 时间序列的符号化表示
1.1 PAA降维与语言类比
时间序列的分段聚合近似(PAA)降维方法虽然简单,但能与语言进行类比。时间序列中不同层次的分段顺序,类似于语言中的单词和表达式顺序,可定义语言的词汇和短语。通过收集分段及其共现频率的字典,能有效进行样本间的成对比较。
1.2 符号聚合近似(SAX)
为了利用自然语言处理(NLP)领域的众多算法,需将PAA表示转换为更具符号性的字母表示。符号聚合近似(SAX)可将实值时间序列数据转换为字母序列(字符串),在发现重复模式(motif)任务中表现出色,例如在查找可变长度的模式时具有优势。
2. 语言建模
2.1 语言模型概述
给定时间序列数据的字符串表示,可应用语言建模评估其是否符合某个类别的模型。统计语言模型是语料库字符串上的概率分布,任何单词序列W在语言模型中都有概率得分P(W),表示其在语言中的相对有效性。
2.2 N - gram语言模型
- 一元模型(Unigram模型) :单词序列W的概率得分近似为每个单词概率的乘积,公式如下:
[P(W) = P(w_1, …, w_n) \approx \prod_{i=1}^{n}P(w_i)] - 二元模型(Bigram模型) :考虑前一个单词的条件,单词序列W的概率得分近似为单词与其前一个单词的条件概率的乘积,公式如下:
[P(W) = P(w_1, …, w_n) \a
超级会员免费看
订阅专栏 解锁全文
17

被折叠的 条评论
为什么被折叠?



