阿拉伯语屏幕渲染单词识别基准策略
1. 引言
全球超5亿人将阿拉伯语作为宗教语言,它在众多文化中具有重要地位。过去二十年,阿拉伯语文本识别主要聚焦于扫描印刷文档,但大多研究基于私有数据库,系统对比困难。目前,面向科学界的大规模阿拉伯语印刷文本图像数据库较少,阿拉伯语手写识别领域虽有公开数据库,如IFN/ENIT数据库,且常基于此举办开放竞赛,但文本语料库无法直接用于以图像为输入的识别系统基准测试。
为解决这些问题,2009年开始开发阿拉伯语印刷文本图像数据库(APTI),用于自身研究并供科学界评估识别系统。APTI旨在对阿拉伯语开放词汇、多字体、多尺寸和多风格的文本识别系统进行大规模基准测试,其图像由大型语料库通过自动化程序合成生成,重点关注图像生成时尺寸、字体和风格的可变性,以及低分辨率图像中抗锯齿对字符识别产生的噪声问题。该数据库适用于评估屏幕截图或PDF文档图像输入的屏幕OCR系统,也可用于评估传统扫描或相机OCR系统,但需考虑扫描或相机文档中典型伪影的缺失。
APTI数据库的挑战包括:
- 大规模评估,对阿拉伯字符形状及其因连字和重叠产生的变化进行真实采样。
- 提供识别系统需处理的多种字体、风格和尺寸。
- 强调计算机屏幕常见的低分辨率图像。
- 孤立单词图像,无法使用词间语言模型。
- 采用半盲评估协议,将开发集和评估集分离。
自20世纪80年代以来,阿拉伯语光学文本识别研究显著增加,扫描OCR在过去二十年取得了长足进步。然而,与拉丁字符OCR系统相比,阿拉伯语OCR仍需进一步发展,特别是在低分辨率印刷单词识别方面。屏幕OCR面临更具挑战性的任务,输入通常分辨率较低,包含多种字体和尺寸,甚至可能是短
超级会员免费看
订阅专栏 解锁全文
13

被折叠的 条评论
为什么被折叠?



