20、阿拉伯文手写识别：数据集与竞赛进展

最新推荐文章于 2025-11-14 11:25:05 发布

落叶知秋263

最新推荐文章于 2025-11-14 11:25:05 发布

阅读量14

点赞数

CC 4.0 BY-SA版权

分类专栏：阿拉伯文OCR技术解析文章标签：阿拉伯文手写识别 OCR ICR

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/ansible6ops/article/details/154855433

阿拉伯文OCR技术解析专栏收录该内容

27 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

阿拉伯文手写识别：数据集与竞赛进展

1. 阿拉伯文文档分析数据集

开发通用的OCR/ICR语料库是一项具有挑战性的任务，特别是在需要丰富的真实标注时。以下是一些在阿拉伯文文档分析工作中创建和标注的数据集：

1.1 OCR阿拉伯文印刷文本数据集

News ：收集了各种字体、图像噪声和页面倾斜的阿拉伯文报纸文章。这个数据集对阿拉伯文OCR引擎及其预处理和后处理阶段提出了一系列挑战，例如自适应图像清理、分割、阅读顺序检测和字体适配。文本布局和内容也有很大差异。
Anfal ：主要是机器印刷文档，用于辅助OCR任务的分析，包括语言/脚本识别、边界检测以及签名和徽标检测。该数据集内容丰富，除了阿拉伯文OCR外，还可用于多种用途，但需要开发专门的标注工具来获取真实标注。

1.2 ICR阿拉伯文手写数据集

AMA ：用于离线手写识别的手写文档，具有PAW级别的真实标注粒度。在创建这个数据集时，面临着无法访问真实目标文档的问题，因此通过详细描述文档中的手写内容、纸张类型和特殊标记来模拟真实数据。
OnAR ：手写短语（复制IFN - A数据集），包含用于在线手写识别的运动和压力信息。该数据集相对容易创建，只需有母语人士（能够操作平板电脑）和IFN数据集（带有真实标注）即可。其优点包括可以获取运动和压力信息以研究手写动态，并且基于知名数据集可以进行额外的基准测试。

所有这些数据集都可以通过各自的

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。