【技术白皮书】第一章:基于深度学习的文本检测与识别的技术背景

本文详细介绍了OCR技术从早期的光学字符识别到现代的自然场景文本检测与识别的发展,强调了场景文本识别在复杂背景、不完美成像条件下的挑战。深度学习技术的进步极大提升了文本检测和识别的性能,自动化程度高、识别效率高且泛化能力强。文章还探讨了基于深度学习的自然场景文本检测与识别方法,包括两阶段方法和端到端方法,并提到了其在各类实际场景中的广泛应用。

1.技术背景

1.1技术背景——什么是文本检测与识别

OCR全称Optical Character Recognition,即光学字符识别,最早在1929年被德国科学家Tausheck提出,定义为将印刷体的字符从纸质文档中识别出来。现在的OCR,狭义上指对输入扫描文档图像进行分析处理,识别出图像中文本信息。而随着OCR技术的日益发展,人们已不再仅仅满足于文档或书本上的文本,开始将目标转移到现实世界场景中的文本,这被称为场景文本识别(Scene Text Recognition,STR)。

因此目前的OCR通常泛指所有图像文本检测和识别技术,包括传统文档图像识别与场景文本识别技术。自然场景文本提取技术是传统 OCR 技术在自然场景图像的扩展和延伸,具有广阔的应用前景。 自然场景文本主要出现在车牌、广告牌、路标和招牌等场景上。不同于传统的扫描图像文本,自然场景文本因表现形式丰富,图像背景复杂,以及图像拍摄引入的干扰因素等的影响,使得对其的分析与处理难度远高于传统的扫描文档图像。

自然场景中文本的多样性和多变性:与文档中的脚本不同,自然场景中的文本表现出更高的多样性和多变性。例如,场景文本的实例可以使用不同的语言、颜色、字体、大小、方向和形状。此外,场景文本的高宽比和布局可能会有显著差异。所有这些变化都为为自然场景中的文本检测和识别算法设计提出了挑战。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值