基于回归的隐马尔可夫模型谱估计方法研究
1. 隐马尔可夫模型近似方法
考虑一个离散隐马尔可夫模型(HMM),它由离散时间 1 到 t 的一系列观测值 $(x_1, x_2, …, x_t)$ 组成。每个观测值 $x_i$ 对应 n 个标签(例如单词)中的一个,同时存在对应的隐藏状态序列 $(h_1, h_2, …, h_t)$,其中 $h_i$ 对应 m 个标签中的一个。假设 $m << n$,例如当单词的词汇量 n 远大于隐藏状态的数量时就是这种情况。
用大小为 $m × m$ 的矩阵 T 表示转移矩阵,$T_{ij} = Pr(h_t = i|h_{t - 1} = j)$;用大小为 $n × m$ 的矩阵 O 表示发射矩阵,$O_{ij} = Pr(x_t = e_i|h_t = j)$。
为了估计简化的隐马尔可夫模型(sHMM),使用矩阵 U 将每个观测值 $x_t$ 投影到低维表示 $y_t$,即 $y_t = U^⊤x_t$。主要在 y 空间中进行操作,y 空间的维度为 m,而不是 n 维的观测空间。需要注意的是,与离散空间的 h 不同,y 位于连续空间。
U 是原始高维观测空间与降维表示空间之间的映射。矩阵 U 并不唯一,只需满足一些性质即可。称 U 为特征词矩阵,因为 $y = U^⊤x$ 形成了词汇表中每个单词 x 的低维表示。可以通过取二元语法矩阵 $P_{21}$ 的最大左奇异向量来轻松估计 U 的一个版本,其中 $[P_{21}] {i,j} = P(x_t = e_i, x {t + 1} = e_j)$。
在所有方法中,目标是估计一个模型,以根据到目前为止的观测值来预测序列中下一
超级会员免费看
订阅专栏 解锁全文
2644

被折叠的 条评论
为什么被折叠?



