基于深度学习的OCR技术导论

本文介绍了OCR技术的基本概念,包括其应用场景和面临的挑战。重点讨论了PaddleOCR库中的8种前沿算法,如文本检测、文本识别、表格识别以及CRNN模型。文章还提到了文本结构化识别的复杂性,尤其是身份证这类应用场景.

一、OCR技术背景

1、OCR是什么?

OCR(Optical Character Recognition,光学字符识别)是计算机视觉重要方向之一。传统定义的OCR一般面向扫描文档类对象,现在我们常说的OCR一般指场景文字识别(Scene Text Recognition,STR),主要面向自然场景,如下图中所示的牌匾等各种自然场景可见的文字。

文档识别和自然场景识别

2、OCR有哪些应用场景?

包含数码管、液晶屏、车牌、高精度SVTR模型、手写体识别等9个垂类模型,覆盖通用,制造、金融、交通行业的主要OCR垂类应用。同时,夸克扫描文档功能页使用额是OCR技术。

3、面临的挑战

  • 算法层面:场景丰富,多语言,光照不足、等等
  • 应用层面:数据量大、端侧识别速度要求

二、PaddleOCR

1、8种前沿算法

  • 文本检测:FCENet,DB++
  • 文本识别:VITSTR,ABINET、VisionLAN、SPIN、RobustScanner
  • 表格识别:TableMaster

2、PP-OCR与PP-Structrue

  • PP-OCR:针对文字检测识别(包括文本检测模块、检测框矫正模块、文本识别模块。利用经典算法CRNN
  • PP-Struc
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值