神经网络与上下文驱动搜索结合的手写识别技术解析
1. 上下文驱动搜索机制
ANN分类器的输出是一系列概率向量,每个分割假设对应一个向量,向量中可能非零概率元素的数量与系统能够识别的字符数量相同。为了提高效率,通常每个分割只将得分最高的前十个(或更少)字符类假设传递给搜索引擎。
搜索引擎会在这个向量流中寻找一条最小代价路径,该路径需遵循之前暂定分割步骤中定义的合法分割转换规则。这条最小代价路径就是APR系统对用户输入墨迹的最佳解释,并作为用户输入的整个单词或句子的识别结果返回给嵌入APR的系统。
搜索由一个有点临时的生成式语言模型驱动,该模型由一组并行搜索的图组成。使用简单的束搜索在负对数概率(或惩罚)空间中寻找最佳的N个假设。束是基于固定的最大假设数量,而非特定的值。每个图发出的可能转换令牌(字符)不仅由ANN评分,还由语言模型本身、简单的大小写模型以及下面讨论的几何上下文模型评分。
2. 词汇上下文的作用
上下文对于准确识别至关重要,即使上下文只是一个非常宽泛的语言模型。人类对数据库中孤立字符的识别准确率仅为90%。如果没有任何上下文,假设平均单词长度为5个字符,那么单词准确率不会超过60%(0.9^5)。通过应用上下文模型,可以显著提高识别准确率。
一个简单的大小写和邻接模型,如惩罚除第一和第二个字符之间的大小写转换、字母到数字的转换等,再结合后面讨论的几何上下文模型,足以将单词级准确率提高到约77%。
进一步提高准确率需要一个真正的语言模型。通过字典图和将这些图组合成的BiGrammars来提供这个模型。BiGrammars本质上是带分数的字典列表,以及这些字典之间指定的合法(带分数)转换。
超级会员免费看
订阅专栏 解锁全文
980

被折叠的 条评论
为什么被折叠?



