古代手写 Modi 文档统一字符簇分割新方法
1. 引言
在手写、无约束、不均匀、连笔且风格化的文字中,重叠和相连字符的分割是一项极具挑战性的任务。古代 Modi 文字源于 Nagari 家族,是一种连笔、风格独特且基于 Bramhi 的文字。它出现于 17 世纪,直到 1950 年都在印度马哈拉施特拉邦作为行政文字使用,用于书写马拉地语、印地语、古吉拉特语、波斯语等多种语言。国家和国际部门存档了数千份手写 Modi 文档,其中包含的珍贵信息在当今仍具有重要价值。
Modi 文字的书写方式独特,使用 Boru/Tak(木棍或鸟羽)书写,文字连在 Shirorekha 上且书写时笔不离纸,Shirorekha 需在书写文字前绘制。此外,Modi 文字中句子和单词不使用标点符号和空格分隔,这使得字符分割过程面临诸多挑战,如字符相连或重叠、Shirorekha 和基线不均匀、文本行倾斜或弯曲、文本大小不一致等。
此前的 Modi 字符分割方法能将 Modi 文本行有效分割为孤立字符和统一字符簇。然而,统一字符簇的分割仍存在诸多挑战,因此需要单独对这些字符簇进行分割。本研究的主要目标是在不使用注释或训练数据集的情况下,对 Modi 统一字符簇进行分割。为此,提出了三种策略,采用全局和局部分区,并结合背景像素强度、前景像素强度和垂直投影轮廓三种分析方法,通过重叠比率来选择合适的分割方法。
2. 相关研究综述
在智能文档识别系统中,字符分割的准确性是字符识别准确性的关键因素。字符分割技术通常分为基于分割(显式)和基于识别(隐式)的方法。
- 基于分割的方法 :通过找出文本部分的分割
Modi文字统一字符簇分割新方法
超级会员免费看
订阅专栏 解锁全文
2679

被折叠的 条评论
为什么被折叠?



