基于伯努利隐马尔可夫模型的阿拉伯文手写识别
1. 引言
隐马尔可夫模型(HMMs)如今广泛应用于多种语言的离线手写识别,尤其是阿拉伯文。阿拉伯语有2.34亿人使用,在众多文化中也具有重要地位。对于文本(行或单词)图像,通常先将其转换为固定维度的特征向量序列,再输入到基于HMM的解码器中,以找到最可能的转录结果。
在语音识别领域,经过数十年研究,使用特定的实值语音特征和嵌入式高斯(混合)HMM已成为事实上的标准。然而,在手写识别中,尚无这样的标准,目前使用的特征集差异很大。为了确保在特征提取过程中不丢失任何判别信息,有人提出直接将原始二值像素列输入到嵌入式伯努利(混合)HMM(BHMMs)中,即发射概率用伯努利混合模型建模的嵌入式HMM。接下来将详细介绍伯努利混合、伯努利HMM、基于BHMM的手写识别、最大似然参数估计等内容。
2. 伯努利混合
设 $o$ 是一个 $D$ 维特征向量,有限混合的概率(密度)函数形式为:
[P(o | Θ) = \sum_{k=1}^{K} \pi_k P(o | k, Θ’)]
其中,$K$ 是混合分量的数量,$\pi_k$ 是第 $k$ 个分量的系数,$P(o | k, Θ’)$ 是第 $k$ 个分量条件概率(密度)函数。混合由参数向量 $Θ$ 控制,它包含混合系数和分量的参数向量 $Θ’$。
伯努利混合模型是上述形式的一个特例,其中每个分量 $k$ 有一个 $D$ 维伯努利概率函数,由其自身的参数向量或原型 $p_k = (p_{k1},…, p_{kD})^t \in [0, 1]^D$ 控制:
[P(o | k, Θ’) = \prod_{d=1}^{D} p_{kd
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



