23、历史阿拉伯手稿的鲁棒单词识别系统与脚本无关的阿拉伯文本识别方法

落叶知秋263

于 2025-11-11 15:00:28 发布

阅读量11

点赞数

CC 4.0 BY-SA版权

分类专栏：阿拉伯文OCR技术解析文章标签：阿拉伯手稿单词识别脚本无关

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/ansible6ops/article/details/154855445

阿拉伯文OCR技术解析专栏收录该内容

27 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

历史阿拉伯手稿的鲁棒单词识别系统与脚本无关的阿拉伯文本识别方法

在处理历史阿拉伯手稿和各类文本识别任务时，有多种先进的技术和系统值得探讨。下面将详细介绍相关的系统、方法、实验结果以及未来的改进方向。

历史阿拉伯手稿单词识别系统

该系统具有一定的灵活性，能轻松适应无点策略，只需从距离定义中去除基于 SP 的描述符即可。未来，将单词识别（WS）技术与 PIPDI 集成是主要目标，这能提供更完整的索引，方便学者访问数据集内容。

未来的改进方向包括：
1. 恢复褪色的分支点（BP） ：基于分支的局部几何变化来恢复可能的 BP。
2. 调整拓扑和几何距离的权重 ：由于拓扑描述符数量远多于几何描述符，可考虑为它们设置不同的权重。
3. 增加几何特征和描述符 ：在不破坏骨架大小独立性的前提下，增加几何特征和描述符的数量，以更好地表示连通组件（CC）。
4. 检测 CC 接触情况 ：通过预处理步骤，基于 CC 的复杂度和边界框来检测由于随意或独特书写风格导致的 CC 接触情况。
5. 添加倾斜校正 ：尽管当前方法对输入文档图像的轻微倾斜具有鲁棒性，但未来会在预处理步骤中添加倾斜校正。

在文档处理中，还涉及一些先验信息，包括：
1. 平均笔画宽度 ：这是文档图像中最重要的特征长度，以常数参数形式作为先验信息使用，通过基于核的算法进行估计。
2. 平均行高

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。