RWTH OCR:用于阿拉伯语脚本的大词汇量光学字符识别系统
在当今数字化的时代,光学字符识别(OCR)技术在处理各种语言的文本方面发挥着至关重要的作用。特别是对于阿拉伯语这种具有独特书写风格和字符特点的语言,开发高效准确的OCR系统具有重要的实际意义。本文将介绍一种新颖的大词汇量OCR系统,它采用了基于置信度和边界的判别式训练方法,能够有效处理多种字体和不同书写风格的阿拉伯语文本。
1. 系统背景与目标
许多阿拉伯语手写识别方法过去常基于HMM,并使用HTK工具包进行最大似然(ML)训练。然而,这些方法在处理不同书写风格和字体时存在一定局限性。传统的商业OCR产品或已发表文献中的系统,多基于孤立字符进行识别算法开发,这种方法在处理退化或手写文档时,由于字符分割不准确和错误累积,效果不佳。
本系统的目标是分析判别式最大互信息(MMI)/最小音素错误(MPE)训练以及将边界和置信度项纳入判别标准对阿拉伯语手写和机打文本识别任务的影响。具体来说,本研究的创新点包括:
- 将最先进的大词汇量语音识别框架转换用于手写和机打OCR。
- 分析离线手写和机打阿拉伯语文本识别。
- 直接评估MMI/MPE训练中边界项的实用性。
- 直接评估额外置信度项的实用性。
- 在最先进的系统上进行评估。
- 评估混合多层感知器(MLP)/HMM和判别式再训练的MLP - 高斯HMM(GHMM)串联方法。
2. 系统概述
在离线手写识别中,我们通过贝叶斯决策规则,最大化后验概率 $p(w_N^1 |x_T^1 )$ 来寻找最匹配特征序列 $x_T^1$ 的未知单词序列 $w_N^1$。
基于判别式训练的阿拉伯语OCR系统
超级会员免费看
订阅专栏 解锁全文
1169

被折叠的 条评论
为什么被折叠?



