基于HMM的阿拉伯手写文字识别系统特征探索
1. 引言
阿拉伯文字识别在邮件分类、银行支票读取以及现代和历史手写文档识别等方面有着广泛的应用。阿拉伯手写文字与拉丁手写文字有相似之处,比如核心部分都位于两条基线之间,基线上下分别有升部和降部。然而,阿拉伯手写文字也有其独特之处,这给离线识别系统带来了巨大挑战。其书写形状圆润,难以去倾斜,还包含许多改变字母含义的小标记,存在大量的连写形式,并且由于词干、前缀和后缀的组合,阿拉伯单词数量可能非常庞大。
对于孤立单词的识别,主要有整体方法和分析方法。整体方法将单词作为一个整体进行建模,不进行分割,适合小词库情况;分析方法通过字符模型的拼接来构建单词模型,便于扩充词汇量。基于隐马尔可夫模型(HMM)的方法很适合实现分析方法,它可以对单词进行预分割或通过滑动窗口提取特征向量序列,能应用于拉丁和阿拉伯单词识别,达到先进的性能水平。接下来将重点介绍HMM系统中的特征提取步骤,涉及三种基于HMM的系统:上下文无关滑动窗口系统、上下文相关系统和将单词分割为字素的混合HMM/神经网络系统。
2. 滑动窗口系统的特征
2.1 基线提取
阿拉伯手写文字和拉丁手写文字一样使用上下两条基线,基线划分出核心区、升部区和降部区。许多系统通过提取基线来获取与基线相关的特征,如判断升部、降部的存在。基线提取方法有多种,这里采用的方法基于垂直投影轮廓,先确定投影轮廓曲线最大值对应的位置为下基线,再从图像顶部向下扫描找到投影值大于平均行密度的第一行作为上基线。不过,对于非常短的单词,由于变音点的影响,可能会得到不准确的基线。
2.2 分布特征
分布特征由16个特征组成,用于描述帧和
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



