阿拉伯文手写识别:数据集与竞赛进展
1. 阿拉伯文文档分析数据集
开发通用的OCR/ICR语料库是一项具有挑战性的任务,特别是在需要丰富的真实标注时。以下是一些在阿拉伯文文档分析工作中创建和标注的数据集:
1.1 OCR阿拉伯文印刷文本数据集
- News :收集了各种字体、图像噪声和页面倾斜的阿拉伯文报纸文章。这个数据集对阿拉伯文OCR引擎及其预处理和后处理阶段提出了一系列挑战,例如自适应图像清理、分割、阅读顺序检测和字体适配。文本布局和内容也有很大差异。
- Anfal :主要是机器印刷文档,用于辅助OCR任务的分析,包括语言/脚本识别、边界检测以及签名和徽标检测。该数据集内容丰富,除了阿拉伯文OCR外,还可用于多种用途,但需要开发专门的标注工具来获取真实标注。
1.2 ICR阿拉伯文手写数据集
- AMA :用于离线手写识别的手写文档,具有PAW级别的真实标注粒度。在创建这个数据集时,面临着无法访问真实目标文档的问题,因此通过详细描述文档中的手写内容、纸张类型和特殊标记来模拟真实数据。
- OnAR :手写短语(复制IFN - A数据集),包含用于在线手写识别的运动和压力信息。该数据集相对容易创建,只需有母语人士(能够操作平板电脑)和IFN数据集(带有真实标注)即可。其优点包括可以获取运动和压力信息以研究手写动态,并且基于知名数据集可以进行额外的基准测试。
所有这些数据集都可以通过各自的
超级会员免费看
订阅专栏 解锁全文

7381

被折叠的 条评论
为什么被折叠?



