基于深度卷积神经网络的孟加拉语手写数字识别新方法
1. 引言
光学字符识别(OCR)是一种利用现实世界文档的数字图片来识别印刷或手写文字字符的技术。该系统极大地促进了人机交互和自动化,显著减少了人力和时间成本。它在诸多领域有着广泛应用,如读取银行支票上的手写数字、识别车辆牌照号码以及从手写结构化表格中提取和识别数字数据等。
然而,由于手写具有因人而异的不一致性,识别手写字符比印刷字符更具挑战性。手写字符在形状、笔画宽度、大小、曲率和间距等方面存在很大差异,这些因素会进一步使识别过程变得复杂。这种变异性可能源于个人的书写风格、使用的书写工具以及书写表面等因素。本文聚焦于识别孟加拉语手写数字。
孟加拉语拥有超过2.3亿的使用者,是世界上第五大最广泛使用的母语,也是第七大最常用语言(包括母语和非母语使用者),并且具有丰富的文化遗产。由于孟加拉语使用者的多样性,其数字的书写模式差异很大,这使得手写字符识别成为一项极具挑战性的任务。
本文提出了一种面向任务的深度卷积架构,并进行了超参数调整。该模型使用两个著名的基准数据集CMATERdb - 3.1.1和BanglaLekha - isolated - numerals进行训练,每个数据集都包含10个孟加拉语手写数字。在将数据集应用于架构之前,会进行必要的预处理步骤。通过在多个数据集上评估模型的性能,并使用类别精度、召回率、F1分数和整体准确率来评估分类器的表现。本文的主要贡献如下:
1. 开发用于识别孟加拉语手写数字的深度卷积神经网络模型。
2. 评估模型在各种数据集上的性能。
3. 将模型的性能与其他模型进行比较。
2. 文献综述
孟加拉语手写
孟加拉语手写数字识别的深度卷积模型
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



