一. 文字识别
文字识别是指在确定检测框之后,识别出对应的文字,文字识别的方法有很多,包括:
1)基于分割后单个字符的分类;
2)基于序列的CNN方法,包括 基于STN矫正,CTC loss,Attention机制等策略;
3)基于one step的检测-识别方法,比如fots、Radical Analysis Network;
二. Attention Model
文字的有效定位对于检测是非常重要的,确定文字的有效区域有利于对文字进行准确切分,提高准确度,Attention Model是一种非常有效的策略,这项工作来自于google,实验效果非常不错。
论文:Attention-based Extraction of Structured Information from Street View Imagery
Github:https://github.com/tensorflow/models/tree/master/research/attention_ocr
Attention OCR结构示意:

本文深入探讨了OCR(光学字符识别)技术,重点介绍了Attention OCR模型,这是一种利用注意力机制来提高文字识别准确性的方法。文章详细阐述了文字识别的多种方法,包括基于分割的分类、序列CNN和one step检测-识别。特别是,Attention OCR通过加入注意力层,增强了文字位置的定位能力。还提供了代码解析和汉字识别的应用步骤,包括构建中文词典和训练过程中的标签映射。最后,文章预告将进一步讨论算法改进。
最低0.47元/天 解锁文章
632

被折叠的 条评论
为什么被折叠?



