软件工程应用与实践(二):Paddle OCR的框架与技术初识

2021SC@SDUSC

目录

一、Paddle OCR的介绍

1.1 OCR的发展与面临的困难 

1.2 PaddleOCR的推出 

二、PP-OCR的框架

2.1 文字检测器

2.2 方向分类器

2.3 文字识别器

三、PP-OCR各模型的策略具体实现

3.1 文本检测器模型

3.2 方向分类器模型

3.3 文字识别器模型 (主要介绍本人负责部分)


一、Paddle OCR的介绍

1.1 OCR的发展与面临的困难 

       OCR (Optical Character Recognition) 是一种以自动识别图像中的文本为目标的技术,其研究历史悠久,应用范围广泛,如文件电子化、身份认证、数字金融系统、车牌识别等。此外,在工厂中,通过自动提取产品的文本信息,可以更方便地管理产品。学生的线下作业或试卷可以通OCR 系统电子化,使师生之间的交流更加高效。OCR 还可以用于标记街景图像的兴趣点 (POI),提高 地图制作效率。丰富的应用场景赋予了 OCR 技术巨大的 商业价值,同时也带来了很多挑战。
      图像中的文本大致可分为两类:场景文本和文档文本 场景文本是指如图所示的自然场景中的文本,它通常会因为一 些因素而发生巨大的变化,如视角缩放、弯曲、混乱、字体、多语言、模糊、光照等。文档文本在实际应用中更常见。它也有高密度、长文本等问题需要解决。同时,文档图像文本识别往往需要 对结果进行结构化,这就带来了一个新的困难任务。
      在实际应用中,需要处理的图像通常是大量的,这使得高计算效率成为设计 OCR 系统的重要标准。 优先选择 CPU 而不是 GPU。
    在成本方面,特别是OCR 系统需要在许多场景下的嵌入式设备上运行,比如手机,这就需要考虑模型的大小,而权衡模型大小和性能是困难的。

1.2 PaddleOCR的推出 

      Paddle Paddle提出一种实用的超轻量级 OCR 系统,命名为 PP- OCR,该系统由文本检测、检测框校正和文本识别三部分组成。
       PP-OCR算法被开发者
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值