历史阿拉伯手稿的鲁棒单词识别系统与脚本无关的阿拉伯文本识别方法
在处理历史阿拉伯手稿和各类文本识别任务时,有多种先进的技术和系统值得探讨。下面将详细介绍相关的系统、方法、实验结果以及未来的改进方向。
历史阿拉伯手稿单词识别系统
该系统具有一定的灵活性,能轻松适应无点策略,只需从距离定义中去除基于 SP 的描述符即可。未来,将单词识别(WS)技术与 PIPDI 集成是主要目标,这能提供更完整的索引,方便学者访问数据集内容。
未来的改进方向包括:
1. 恢复褪色的分支点(BP) :基于分支的局部几何变化来恢复可能的 BP。
2. 调整拓扑和几何距离的权重 :由于拓扑描述符数量远多于几何描述符,可考虑为它们设置不同的权重。
3. 增加几何特征和描述符 :在不破坏骨架大小独立性的前提下,增加几何特征和描述符的数量,以更好地表示连通组件(CC)。
4. 检测 CC 接触情况 :通过预处理步骤,基于 CC 的复杂度和边界框来检测由于随意或独特书写风格导致的 CC 接触情况。
5. 添加倾斜校正 :尽管当前方法对输入文档图像的轻微倾斜具有鲁棒性,但未来会在预处理步骤中添加倾斜校正。
在文档处理中,还涉及一些先验信息,包括:
1. 平均笔画宽度 :这是文档图像中最重要的特征长度,以常数参数形式作为先验信息使用,通过基于核的算法进行估计。
2. 平均行高
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



