一、OCR技术背景
1、OCR是什么?
OCR(Optical Character Recognition,光学字符识别)是计算机视觉重要方向之一。传统定义的OCR一般面向扫描文档类对象,现在我们常说的OCR一般指场景文字识别(Scene Text Recognition,STR),主要面向自然场景,如下图中所示的牌匾等各种自然场景可见的文字。

2、OCR有哪些应用场景?
包含数码管、液晶屏、车牌、高精度SVTR模型、手写体识别等9个垂类模型,覆盖通用,制造、金融、交通行业的主要OCR垂类应用。同时,夸克扫描文档功能页使用额是OCR技术。
3、面临的挑战
- 算法层面:场景丰富,多语言,光照不足、等等
- 应用层面:数据量大、端侧识别速度要求
二、PaddleOCR
1、8种前沿算法
- 文本检测:FCENet,DB++
- 文本识别:VITSTR,ABINET、VisionLAN、SPIN、RobustScanner
- 表格识别:TableMaster
2、PP-OCR与PP-Structrue
- PP-OCR:针对文字检测识别(包括文本检测模块、检测框矫正模块、文本识别模块。利用经典算法CRNN)
- PP-Struc

本文介绍了OCR技术的基本概念,包括其应用场景和面临的挑战。重点讨论了PaddleOCR库中的8种前沿算法,如文本检测、文本识别、表格识别以及CRNN模型。文章还提到了文本结构化识别的复杂性,尤其是身份证这类应用场景.
最低0.47元/天 解锁文章
9万+





