阿拉伯文OCR预处理技术解析
1. 引言
在当今的光学字符识别(OCR)系统中,离线文档图像是常见的输入形式。这些图像通常来自手写文本页面的扫描,纸张类型多样,可能包含预印的格线、标志、图形和印刷文本等。扫描图像可以是彩色、灰度或二值图像。然而,多种因素会对下游OCR性能产生重大影响,例如扫描分辨率(低至200 dpi)、低端扫描仪内置二值化算法不佳导致的二值化伪影,以及各种类型的噪声,包括暗背景、椒盐噪声(孔洞和小斑点)和非文本对象(如表格线、格线、标志和其他图形),这些都需要被检测和去除。
历史手稿也是文档图像的重要来源,如美国国会图书馆收藏的手写历史文档图像,通常通过拍摄原始文档进行数字化。由于老化、处理、墨水渗透、污垢和其他损坏,历史文档图像质量较差。而且,由于其易碎性,通常使用数码相机而非平板扫描仪进行成像,这会导致图像强度不均匀。因此,需要增强方法来提高历史文档的可读性,以满足历史学家的视觉检查和OCR应用的需求。
为了解决这些问题,本文将介绍三个重要的预处理任务:灰度图像增强技术、二值文档图像增强技术和手写二值图像的行分离技术。
2. 灰度图像预处理
在文本分割领域,有三种流行的阈值算法,分别是大津法(Otsu’s thresholding technique)、Kapur等人提出的熵技术以及Kittler和Illingworth提出的最小误差技术。此外,还有专门为历史文档分割设计的基于熵的方法。
针对具有不均匀背景的历史文档图像二值化,本文提出了一种新的技术。该方法通过非线性模型自适应地近似纸张背景,结合局部和全局线拟合方法,找到适合扫描线上每个点邻域内所有点的最佳直线段。
超级会员免费看
订阅专栏 解锁全文

1万+

被折叠的 条评论
为什么被折叠?



