软件工程应用与实践(十):PP-OCRv2的简单介绍

2021SC@SDUSC

目录

一、前情回顾和背景介绍

1.1 PP-OCR文字识别策略回顾

1.2 PP-OCRv2的背景

1.3  PP-OCRv2的简介

二、PP-OCRv2策略介绍

2.1  新增策略简介

2.1.1  文本检测器新增策略

2.1.2  文本识别器新增策略

2.2  新增策略详解

2.2.1  文本检测器

2.2.2  文本识别器

三、PP-OCRv2的实验测试及结果

总结



一、前情回顾和背景介绍

1.1 PP-OCR文字识别策略回顾

        策略的选用主要是用来增强模型能力和减少模型大小。下面是PP-OCR文字识别器所采用的九种策略:

  • 轻主干,选用采用 MobileNetV3 large x0.5 来权衡精度和效率;
  • 数据增强,BDA (Base Dataaugmented)和TIA (Luo et al. 2020);
  • 余弦学习率衰减,有效提高模型的文本识别能力;
  • 特征图辨析,适应多语言识别,进行向下采样 feature map的步幅修改;
  • 正则化参数,权值衰减避免过拟合;
  • 学习率预热,同样有效;
  • 轻头部,采用全连接层将序列特征编码为预测字符,减小模型大小;
  • 预训练模型,是在 ImageNet 这样的大数据集上训练的,可以达到更快的收敛和更好的精度;
  • PACT量化,略过 LSTM 层;

1.2 PP-OCRv2的背景


        光学字符识别(0CR) 系统已广泛应用于各种应用场景。设计0CR系统仍然是一项具有挑战性的任务。

        在之前的工作中,我们提出了一种实用的超轻量级OCR系统(PP-OCR)来平衡精度和效率。为了提高PP- OCR的准确性并保持高效率,在本文中将介绍,根据Paddle Paddle官方文档提出的一种更鲁棒的OCR系统,即PP -OCRv2。

        PP -OCRv2引入了一系列技巧来训练更好的文本检测器和更好的文本识别器,其中包括协作互学习(CML)、 CopyPaste, 轻量级CPU 网络(PP-LCNet)、统一深度互学习(U-DML) 和增强CTCLoss 。
        在真实数据上的实验表明,在相同的推理成本下,PP-0CRv2的精度比PP-0CR 高7%。 它也可以与使用ResNet系列作为主干的PP-OCR 的服务器模型相媲美。上述所有模型都是开源的,代码可在GitHub 存储库PaddleOCR中找到。

1.3  PP-OCRv2的简介


        OCR (Optical Character Recognition) ,如图1所示,经过近二十年来的深入研究,具有多种应用场景,如证件电子化、身份认证、数字金融系统、车牌识别等。在实际构建OCR系统时,不仅要考虑精度,还要考虑计算效率。

        在之前,我们提出了-种实用的超轻量级0CR系统(PP-OCR) (Du et al. 2020) 来平衡精度和效率。它由文本检测、检测框校正和文本识别三部分组成。可微二值化(DB) (Liao et al. 2020a) 用于文本检测,CRNN (Shi, Bai, and Yao 2016) 用于文本识别。系统采用19种有效策略对模型进行优化和瘦身。为了提高PP-0CR的准确性并保持效率,在本文中,我们介绍一种更强大的OCR系统,即PP- -0CRv2。它引入了一系列技巧来训练更好的文本检测器和更好的文本识别器。图2说明了PP-0CRv2 的框架,大多数策略遵循PP-0CR,如绿框所示。这橙色框中的策略是PP- 0CRv2中的附加策略。

 

         
 

二、PP-OCRv2策略介绍

2.1  新增策略简介

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值