18、基于互补方法的分布式连笔书写OCR系统探索

基于互补方法的分布式连笔书写OCR系统探索

1. 引言

大量不同语言(如阿拉伯语)的印刷连笔书写文档急需进行计算机化处理。这些文档通常质量较差,因此需要高效的光学字符识别(OCR)系统。然而,现有的OCR系统对输入文档质量非常敏感,中低质量的输入文档会显著降低识别率。实验表明,动态时间规整(DTW)算法是处理此类任务的最佳技术之一。

DTW算法是动态规划在模式识别领域的应用,它能够在不进行字符分割的情况下,很好地识别中低质量的印刷连笔书写,在识别东方和中东语言(如阿拉伯语)以及拉丁连笔字符方面表现出色。但该算法计算量巨大,这限制了它的广泛应用。

为解决这一问题,人们提出了许多方法。网格计算,特别是志愿者网格,因其能提供大量计算和存储能力,被认为是一种可行的解决方案。不过,志愿者网格也存在一些问题,如数据可用性和处理能力损失。而代理技术,尤其是智能代理的使用,可以解决这些问题。本文提出了一种面向服务的网格架构(SOGA),将志愿者网格计算和代理技术相结合,以实现基于DTW算法的大规模连笔书写OCR。

2. 现有分布式OCR系统

计算机科学家们提供了一些大规模OCR的解决方案,以下是一些代表性的例子:
| 系统名称 | 特点 | 优势 | 劣势 |
| ---- | ---- | ---- | ---- |
| 澳大利亚报纸数字化项目 | 使用OCR软件建立大规模历史数字化项目,采用多种方法提高OCR准确性,让公众参与文本校正 | 尝试多种方法提高准确性,利用公众力量校正文本 | 公众干预可能影响文章内容,OCR准确性仍需提高 |
| OCRGrid | 分布式和协作式OCR系统平台,部署大量OCR服

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值