基于互补方法的分布式连笔书写OCR系统探索
1. 引言
大量不同语言(如阿拉伯语)的印刷连笔书写文档急需进行计算机化处理。这些文档通常质量较差,因此需要高效的光学字符识别(OCR)系统。然而,现有的OCR系统对输入文档质量非常敏感,中低质量的输入文档会显著降低识别率。实验表明,动态时间规整(DTW)算法是处理此类任务的最佳技术之一。
DTW算法是动态规划在模式识别领域的应用,它能够在不进行字符分割的情况下,很好地识别中低质量的印刷连笔书写,在识别东方和中东语言(如阿拉伯语)以及拉丁连笔字符方面表现出色。但该算法计算量巨大,这限制了它的广泛应用。
为解决这一问题,人们提出了许多方法。网格计算,特别是志愿者网格,因其能提供大量计算和存储能力,被认为是一种可行的解决方案。不过,志愿者网格也存在一些问题,如数据可用性和处理能力损失。而代理技术,尤其是智能代理的使用,可以解决这些问题。本文提出了一种面向服务的网格架构(SOGA),将志愿者网格计算和代理技术相结合,以实现基于DTW算法的大规模连笔书写OCR。
2. 现有分布式OCR系统
计算机科学家们提供了一些大规模OCR的解决方案,以下是一些代表性的例子:
| 系统名称 | 特点 | 优势 | 劣势 |
| ---- | ---- | ---- | ---- |
| 澳大利亚报纸数字化项目 | 使用OCR软件建立大规模历史数字化项目,采用多种方法提高OCR准确性,让公众参与文本校正 | 尝试多种方法提高准确性,利用公众力量校正文本 | 公众干预可能影响文章内容,OCR准确性仍需提高 |
| OCRGrid | 分布式和协作式OCR系统平台,部署大量OCR服
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



