高效OCR后处理与未知语言模型拒绝阈值估计
1. 引言
光学字符识别(OCR)在处理印刷或手写文本后,通常会进行后处理,以提升最终识别性能。语言模型可对文本内容施加约束,不同类型的表单字段对应着不同的语言模型,如姓名、年龄、日期等。在大规模工业表单处理中,新的语言模型会不断出现。
后处理技术可提供可靠性指标,通过设置阈值能拒绝那些不太可能正确的字符串,降低错误率。但阈值的选择对系统性能和经济效益影响重大,过高的拒绝率会增加人工数据录入成本。因此,本文提出一种估计未知语言模型预期错误率分布的技术,以此估算测试样本的拒绝阈值。
2. 相关工作
在连续语音识别领域,许多语言建模技术可应用于OCR任务,如字典搜索、n - 元语法、隐马尔可夫模型等。在OCR和文本识别任务中,也有不少使用语言建模进行纠错的工作。
本文采用错误纠正解析(ECP)技术处理OCR假设,通过形式语法构建有限状态机,利用维特比算法找到最大似然路径。有限状态机的构建基于语法推理算法,接受严格意义上的最小k - 可测试语言(k - TS语言)。
在置信度估计方面,有诸多相关研究,如修改后的ROC曲线、不同的拒绝策略等。自动拒绝阈值估计在多个领域都有应用,不同领域采用了不同的统计方法,如蒙特卡罗技术、回归分析、广义帕累托分布等。
3. 方法
3.1 概率模型
概率公式为 (P(t) = P(LM|t)P(EM|t)^{\lambda_e}P(HM|t)^{\lambda_h}) ,其中语言模型(LM)权重固定为1,其影响由其他参数的绝对值控制。(\lambda_e) 和 (\lambda_h)
超级会员免费看
订阅专栏 解锁全文
369

被折叠的 条评论
为什么被折叠?



