45、古代手写 Modi 文档统一字符簇分割新方法

Modi文字统一字符簇分割新方法

古代手写 Modi 文档统一字符簇分割新方法

1. 引言

在手写、无约束、不均匀、连笔且风格化的文字中,重叠和相连字符的分割是一项极具挑战性的任务。古代 Modi 文字源于 Nagari 家族,是一种连笔、风格独特且基于 Bramhi 的文字。它出现于 17 世纪,直到 1950 年都在印度马哈拉施特拉邦作为行政文字使用,用于书写马拉地语、印地语、古吉拉特语、波斯语等多种语言。国家和国际部门存档了数千份手写 Modi 文档,其中包含的珍贵信息在当今仍具有重要价值。

Modi 文字的书写方式独特,使用 Boru/Tak(木棍或鸟羽)书写,文字连在 Shirorekha 上且书写时笔不离纸,Shirorekha 需在书写文字前绘制。此外,Modi 文字中句子和单词不使用标点符号和空格分隔,这使得字符分割过程面临诸多挑战,如字符相连或重叠、Shirorekha 和基线不均匀、文本行倾斜或弯曲、文本大小不一致等。

此前的 Modi 字符分割方法能将 Modi 文本行有效分割为孤立字符和统一字符簇。然而,统一字符簇的分割仍存在诸多挑战,因此需要单独对这些字符簇进行分割。本研究的主要目标是在不使用注释或训练数据集的情况下,对 Modi 统一字符簇进行分割。为此,提出了三种策略,采用全局和局部分区,并结合背景像素强度、前景像素强度和垂直投影轮廓三种分析方法,通过重叠比率来选择合适的分割方法。

2. 相关研究综述

在智能文档识别系统中,字符分割的准确性是字符识别准确性的关键因素。字符分割技术通常分为基于分割(显式)和基于识别(隐式)的方法。

  • 基于分割的方法 :通过找出文本部分的分割
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值