23、历史阿拉伯手稿的鲁棒单词识别系统与脚本无关的阿拉伯文本识别方法

历史阿拉伯手稿的鲁棒单词识别系统与脚本无关的阿拉伯文本识别方法

在处理历史阿拉伯手稿和各类文本识别任务时,有多种先进的技术和系统值得探讨。下面将详细介绍相关的系统、方法、实验结果以及未来的改进方向。

历史阿拉伯手稿单词识别系统

该系统具有一定的灵活性,能轻松适应无点策略,只需从距离定义中去除基于 SP 的描述符即可。未来,将单词识别(WS)技术与 PIPDI 集成是主要目标,这能提供更完整的索引,方便学者访问数据集内容。

未来的改进方向包括:
1. 恢复褪色的分支点(BP) :基于分支的局部几何变化来恢复可能的 BP。
2. 调整拓扑和几何距离的权重 :由于拓扑描述符数量远多于几何描述符,可考虑为它们设置不同的权重。
3. 增加几何特征和描述符 :在不破坏骨架大小独立性的前提下,增加几何特征和描述符的数量,以更好地表示连通组件(CC)。
4. 检测 CC 接触情况 :通过预处理步骤,基于 CC 的复杂度和边界框来检测由于随意或独特书写风格导致的 CC 接触情况。
5. 添加倾斜校正 :尽管当前方法对输入文档图像的轻微倾斜具有鲁棒性,但未来会在预处理步骤中添加倾斜校正。

在文档处理中,还涉及一些先验信息,包括:
1. 平均笔画宽度 :这是文档图像中最重要的特征长度,以常数参数形式作为先验信息使用,通过基于核的算法进行估计。
2. 平均行高

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值