序列数据建模:隐马尔可夫模型与线性动态系统
1. 序列数据概述
在许多实际应用中,独立同分布(i.i.d.)假设并不适用,我们需要关注序列数据。序列数据常见于时间序列测量,如每日降雨量、货币汇率、语音识别中的声学特征等,也可出现在非时间序列场景,如DNA碱基对序列、英文句子中的字符序列。
序列分布可分为平稳和非平稳两类。平稳分布中,数据随时间演变,但生成数据的分布保持不变;非平稳分布中,生成分布随时间变化。这里主要关注平稳情况。
在预测时间序列的下一个值时,直觉上近期观测比历史观测更具信息价值。由于考虑所有历史观测会使模型复杂度无限增长,因此引入马尔可夫模型,假设未来预测仅依赖于最近的观测。
2. 马尔可夫模型
- 简单处理方法的局限性 :将序列数据视为独立同分布会忽略数据中的序列模式。例如,预测是否下雨时,若将数据视为独立同分布,只能从数据中获取下雨天数的相对频率,而忽略了天气的趋势。
- 一阶马尔可夫链 :使用乘积规则可将观测序列的联合分布表示为 (p(x_1, \ldots, x_N) = \prod_{n=1}^{N} p(x_n|x_1, \ldots, x_{n-1}))。假设每个条件分布仅依赖于最近的观测,得到一阶马尔可夫链,其联合分布为 (p(x_1, \ldots, x_N) = p(x_1) \prod_{n=2}^{N} p(x_n|x_{n-1}))。根据d - 分离性质,观测 (x_n) 的条件分布为 (p(x_n|x_1, \ldots, x_{n-1}) = p(x_n|x_{n-1}))。
超级会员免费看
订阅专栏 解锁全文
1039

被折叠的 条评论
为什么被折叠?



