阿拉伯文字文档布局分析
1. 引言
布局分析在将文档转换为可搜索的电子表示形式中起着关键作用,它主要涉及从文档图像中提取文本行,并确定其阅读顺序。在大规模文档数字化项目里,文档布局的多样性给文档图像分析带来了严峻挑战。文档图像可能包含文本、图形、半色调等不同类型的内容。光学字符识别(OCR)的目标是从文档图像中提取文本,这一过程分为两个步骤:首先进行几何布局分析,定位图像中的文本行并确定其阅读顺序;然后将布局分析识别出的文本行输入字符识别引擎,将其转换为合适格式(如 ASCII、UTF - 8 等)的文本。
阿拉伯文字是世界上使用广泛的文字之一,仅次于拉丁文字,用于书写亚洲和非洲的多种语言,如阿拉伯语、乌尔都语、波斯语等。它是一种连笔文字,字符常组合成连字。常见的书写风格有 Naskh 和 Nastaliq,Naskh 风格在阿拉伯语和普什图语中占主导,而 Nastaliq 是乌尔都语和波斯语的标准书写风格。从布局分析角度看,Nastaliq 与 Naskh 风格的主要区别在于:(1)行间距和单词间距非常小;(2)高上升部和下降部会重叠到相邻文本行。
目前,阿拉伯文字 OCR 研究主要集中在单词识别,针对机器打印阿拉伯文字文档图像的文本行提取方法较少。由于阿拉伯语通常用 Naskh 风格书写,利用水平投影进行文本行分割在机器打印文档上效果较好,但这种方法仅适用于干净、单栏且行间距大的文档。对于多栏文档,可使用 x - y 切割法或形态学操作获取文本块,再通过水平投影进一步细分。在手写阿拉伯文档领域,也有更复杂的文本行提取方法,但主要解决的是文本行的局部非线性问题。
2. 文本与非文本分割
文本与非文本分割是文档图像处理的重要初始步骤,特
超级会员免费看
订阅专栏 解锁全文
12

被折叠的 条评论
为什么被折叠?



