2021SC@SDUSC
目录
一、Paddle OCR的介绍
1.1 OCR的发展与面临的困难
OCR (Optical Character Recognition)
是一种以自动识别图像中的文本为目标的技术,其研究历史悠久,应用范围广泛,如文件电子化、身份认证、数字金融系统、车牌识别等。此外,在工厂中,通过自动提取产品的文本信息,可以更方便地管理产品。学生的线下作业或试卷可以通OCR
系统电子化,使师生之间的交流更加高效。OCR
还可以用于标记街景图像的兴趣点
(POI),提高 地图制作效率。丰富的应用场景赋予了 OCR
技术巨大的 商业价值,同时也带来了很多挑战。
图像中的文本大致可分为两类:场景文本和文档文本。
场景文本是指如图所示的自然场景中的文本,它通常会因为一
些因素而发生巨大的变化,如视角缩放、弯曲、混乱、字体、多语言、模糊、光照等。文档文本在实际应用中更常见。它也有高密度、长文本等问题需要解决。同时,文档图像文本识别往往需要 对结果进行结构化,这就带来了一个新的困难任务。
在实际应用中,需要处理的图像通常是大量的,这使得高计算效率成为设计 OCR
系统的重要标准。
优先选择
CPU
而不是 GPU。
在成本方面,特别是OCR
系统需要在许多场景下的嵌入式设备上运行,比如手机,这就需要考虑模型的大小,而权衡模型大小和性能是困难的。
1.2 PaddleOCR的推出
Paddle Paddle提出一种实用的超轻量级 OCR
系统,命名为
PP- OCR,该系统由文本检测、检测框校正和文本识别三部分组成。
PP-OCR算法被开发者