【技术白皮书】第一章：基于深度学习的文本检测与识别的技术背景

原创

已于 2022-09-05 16:03:14 修改 · 1.7k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #人工智能 #图像处理

于 2022-09-05 15:56:22 首次发布

本文详细介绍了OCR技术从早期的光学字符识别到现代的自然场景文本检测与识别的发展，强调了场景文本识别在复杂背景、不完美成像条件下的挑战。深度学习技术的进步极大提升了文本检测和识别的性能，自动化程度高、识别效率高且泛化能力强。文章还探讨了基于深度学习的自然场景文本检测与识别方法，包括两阶段方法和端到端方法，并提到了其在各类实际场景中的广泛应用。

1.技术背景

1.1技术背景——什么是文本检测与识别

OCR全称Optical Character Recognition，即光学字符识别，最早在1929年被德国科学家Tausheck提出，定义为将印刷体的字符从纸质文档中识别出来。现在的OCR，狭义上指对输入扫描文档图像进行分析处理，识别出图像中文本信息。而随着OCR技术的日益发展，人们已不再仅仅满足于文档或书本上的文本，开始将目标转移到现实世界场景中的文本，这被称为场景文本识别（Scene Text Recognition，STR）。

因此目前的OCR通常泛指所有图像文本检测和识别技术，包括传统文档图像识别与场景文本识别技术。自然场景文本提取技术是传统 OCR 技术在自然场景图像的扩展和延伸，具有广阔的应用前景。自然场景文本主要出现在车牌、广告牌、路标和招牌等场景上。不同于传统的扫描图像文本，自然场景文本因表现形式丰富，图像背景复杂，以及图像拍摄引入的干扰因素等的影响，使得对其的分析与处理难度远高于传统的扫描文档图像。

自然场景中文本的多样性和多变性：与文档中的脚本不同，自然场景中的文本表现出更高的多样性和多变性。例如，场景文本的实例可以使用不同的语言、颜色、字体、大小、方向和形状。此外，场景文本的高宽比和布局可能会有显著差异。所有这些变化都为为自然场景中的文本检测和识别算法设计提出了挑战。