5、阿拉伯文OCR预处理技术解析

阿拉伯文OCR预处理技术解析

1. 引言

在当今的光学字符识别(OCR)系统中,离线文档图像是常见的输入形式。这些图像通常来自手写文本页面的扫描,纸张类型多样,可能包含预印的格线、标志、图形和印刷文本等。扫描图像可以是彩色、灰度或二值图像。然而,多种因素会对下游OCR性能产生重大影响,例如扫描分辨率(低至200 dpi)、低端扫描仪内置二值化算法不佳导致的二值化伪影,以及各种类型的噪声,包括暗背景、椒盐噪声(孔洞和小斑点)和非文本对象(如表格线、格线、标志和其他图形),这些都需要被检测和去除。

历史手稿也是文档图像的重要来源,如美国国会图书馆收藏的手写历史文档图像,通常通过拍摄原始文档进行数字化。由于老化、处理、墨水渗透、污垢和其他损坏,历史文档图像质量较差。而且,由于其易碎性,通常使用数码相机而非平板扫描仪进行成像,这会导致图像强度不均匀。因此,需要增强方法来提高历史文档的可读性,以满足历史学家的视觉检查和OCR应用的需求。

为了解决这些问题,本文将介绍三个重要的预处理任务:灰度图像增强技术、二值文档图像增强技术和手写二值图像的行分离技术。

2. 灰度图像预处理

在文本分割领域,有三种流行的阈值算法,分别是大津法(Otsu’s thresholding technique)、Kapur等人提出的熵技术以及Kittler和Illingworth提出的最小误差技术。此外,还有专门为历史文档分割设计的基于熵的方法。

针对具有不均匀背景的历史文档图像二值化,本文提出了一种新的技术。该方法通过非线性模型自适应地近似纸张背景,结合局部和全局线拟合方法,找到适合扫描线上每个点邻域内所有点的最佳直线段。

2.1 可变强度背
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值