神经网络在手写字符识别中的应用
1. 手写字符识别的背景与意义
在当今时代,尽管计算机已经广泛普及,但手写数据的使用量却有增无减。离线手写识别的核心问题在于如何快速且准确地将手写数据转化为机器可读形式。以美国国税局发放的税务表格为例,表格包含预印的说明和响应字段,受访者需在这些字段中填写字母数字信息,如姓名、地址、收入、扣除额等,而这些信息最终都需要转录为机器可读形式并存储在在线数据库中。类似的应用在商业、银行、医疗保健和政府等领域都广泛存在。目前,大部分数据采集工作仍依赖人工完成,不过计算机和模式识别技术有望大幅降低成本。
2. 手写字符识别面临的问题及解决方法
2.1 分割问题
为了识别和转录完整字段图像中的手写输入,需要解决两个关键问题:一是将字符串图像分割成单个字符图像;二是识别这些单个字符。分割问题主要有两种解决方法:
- 使用预印字符框 :让受访者将单个字符写在预印的框中,然后基于几何表单模型提取字符。这种方法易于实现、速度快且分割错误率低,有助于解决西方手写体中的一些固有歧义。但用户对于在预印的每个字符框中书写长响应的接受度较低,而且预印框会占用更多表格空间,可能增加印刷成本。适用于难以验证且缺乏低困惑度语言模型的响应,如银行支票金额、社会安全号码、电话号码和个人姓名等。
- 无预印字符框的无约束字段 :响应区域为一个空白空间,用于完整的回答(一个或多个单词)。通过生成多个可能重叠的候选单个字符图像进行识别,然后将这些图像组合成输入的完整解释。这种方法用户接受度高,能更好地容纳长响应,且在表格上占用空间少。但识别无约束字段中的响应需要更多计算资
超级会员免费看
订阅专栏 解锁全文
24万+

被折叠的 条评论
为什么被折叠?



