阿拉伯文文档分析的多阶段方法
1. 引言
电子文档分析通常是一个多阶段过程,一般包括文档图像清理、内容检测与分割、识别和校正,可能还会有命名实体识别、自动摘要和机器翻译。每个处理阶段依赖于前一阶段的输出和置信度度量,这些度量可以直接来自实现特定处理阶段的算法,也可以基于额外类型的证据计算得出。
每个处理阶段可能包含多个子阶段,这些子阶段可以顺序或并行运行。例如,对于多个光学字符识别(OCR)引擎,组合的OCR阶段可以在单个文档上并行执行这些引擎,并将各个结果合并为单个输出文本流。此外,高级文档分析系统可能包含反馈循环,通过检查后期阶段获得的可靠证据来了解早期处理步骤。
下面将探讨阿拉伯文OCR和手写识别(HWR)的主要阶段,介绍一种多阶段解决方案,并详细讨论相关算法和多过滤器框架。
2. 阿拉伯文文档处理算法
2.1 预OCR处理
现代OCR引擎需要处理噪声水平、页面布局、图像质量和像素深度差异很大的文档图像。虽然大多数引擎会进行一些预识别图像增强,但这种增强通常是通用的,可能无法考虑到用户在处理数据时经常遇到的特定类型的伪影。
许多图像增强方法在处理没有相应噪声源的图像时,实际上可能会降低图像质量。因此,选择合适的图像改进方法是使用OCR使噪声文档图像的文本可用于搜索或进一步处理的重要步骤。
在实际操作中,通常的选择有两种:一是选择一组固定的图像变换,认为这些变换可能会改善大批量文档的整体质量;二是让人工操作员为每个扫描图像选择合适的技术。但这两种选择都不尽如人意。固定选择存在上述问题,而人工决策需要时间和精力,并且人认为最好的结果可能并不对应OCR的最佳结果。
超级会员免费看
订阅专栏 解锁全文
16

被折叠的 条评论
为什么被折叠?



