基于深度学习的提伽拉里文(Tigalari)字符识别研究
1. 提伽拉里文概述
提伽拉里文由于东部西高止山脉和西部阿拉伯海形成的区域隔离,进一步从朱罗格兰塔文字(Chola Grantha Script)独立演变而来。从一些显著的字符结构来看,它保留了朱罗格兰塔文字的特点,并且在玛德瓦查里亚(Madhwacharya)的《Sarvamoola - Grantha》中使用时已完全成型,推测提伽拉里文可能在 12 世纪前至少存在了一百年。
提伽拉里文的使用地区几个世纪以来一直是学术中心,至今仍保持着较高的识字率。这些地区的手稿大多使用提伽拉里文书写,具有很高的文学和科学价值,涵盖医学、科学、吠陀经、经文、奥义书、数学公式、日常账目、天文学、美学和哲学等广泛领域。
卡纳塔克邦政府通过图鲁文学学院(Tulu Sahithya Academy)在芒格洛尔(Mangaluru)和乌杜皮(Udupi)地区的学校引入了图鲁语(Tulu)和提伽拉里文,并提供教科书、网络课程和手册来学习这种文字。学者们也在努力为提伽拉里文引入符合 Unicode 的字体。
提伽拉里文有 16 个元音(swaras),包括安努斯瓦拉(Anusvara,“am”)和维萨拉加(Visaraga,“ah”),它们不能单独发音,需与辅音一起发音。元音“rr”和“ll”很少见,仅用于梵语文本。在数据集中排除了“am”、“aha”、“rr”和“rr”这四个元音。除了“a”与纯辅音结合产生辅音音外,独立元音都有相应的依赖元音符号,这些元音符号可称为半元音。提伽拉里文还有 34 个辅音(vyanjanas),从“ka”到“l.a”,与卡纳达文和马拉雅拉姆文的字母类似。辅音和半元音共同构成“Gunitakshara
超级会员免费看
订阅专栏 解锁全文
985

被折叠的 条评论
为什么被折叠?



