基于卷积神经网络的图鲁文脚本字符识别
1 引言
手写分类和识别是当前研究中极具吸引力的问题之一,因其在诸多领域有着广泛应用。它能有效减少将手写字符文档转换为机器可读文本的人工工作量。深度卷积神经网络(DCNNs)已成功应用于多种语言的字符识别。本文提出一种基于DCNN的架构,用于图鲁语字符的分类。图鲁语是达罗毗荼语系的五大语言之一,在卡纳塔克邦和喀拉拉邦约有500万人使用。该模型主要用于辅助图鲁文文档的字符识别,数据集包含了共计90,000个字符,涵盖元音和辅音。此架构在对45个手写字符进行分类时,测试准确率达到了令人满意的92.41%。
光学字符识别(OCR)是将包含印刷或手写字符的文档或图像转换为机器可读格式的过程。近几十年来,它在减少手写或印刷文本图像数字化的繁琐人工工作方面发挥了重要作用,成为了热门的研究领域。到目前为止,OCR中使用了不同的传统方法,如支持向量机(SVM)、模板匹配、K近邻法、隐马尔可夫模型等。随着技术的进步和计算能力的提升,深度学习技术在近年来备受关注。然而,手写文本的OCR对研究人员来说仍然是一项复杂且具有挑战性的任务,因为模型需要应对从各种手写风格中识别字符的挑战。这对于印度语言来说尤为明显,因为它们拥有大量的字符集和复合字符。英语和其他西方语言的OCR准确率较高,因为它们的字符数量较少且结构复杂度较低。而印度文字的字符识别则相对困难,因为其结构复杂且字符具有相似性。
CNN是一种著名的深度学习方法,已成功应用于不同的分类问题。在模式分类、人脸识别、自然语言处理等领域,CNN具有很强的识别二维数据模式的能力。它最早由福岛邦彦在20世纪80年代提出,但由于训练过程困难,多年来未得到广泛应用。直到勒昆在数字识别中取得良好结果后,CNN才开始受到关注。近
超级会员免费看
订阅专栏 解锁全文
643

被折叠的 条评论
为什么被折叠?



