场景文字识别综述

本文概述了场景文字检测和识别的关键技术,包括全卷积网络FCN、ResNet、R-CNN系列以及YOLO和SSD。FCN因其多尺寸学习能力成为许多方法的骨干网络,ResNet解决了深层网络训练难题,R-CNN系列提高了目标检测效率,YOLO和SSD则提供了快速检测方案。这些技术在场景文字识别领域发挥重要作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

场景文字检测和识别的关键技术

网络架构

全卷积网络 FCN
  • Fully convolutional network FCN 全卷积网络,没有全连接层的网络
  • FCN可以生成用于有效语义分割的特征层次结构
    在这里插入图片描述
  • 由于多尺寸学习和预测的优点,符合场景文字的本质,许多文字识别方法把FCN作为它们的骨干(backbone)网络。
  • 一般来说,首先,使用 FCN 得到像素级文本/非文本 salient map(突出点映射),它产生像素级标签或包含文本的标记区域。然后,生成文本候选边框。
  • 通过利用 skip architecture of FCN(全连接网络的跳跃连接结构),不同尺寸的感受野(receptive fields RF)能够同时编码文本的局部特征和文本的全局上下文信息。
ResNet
  • 越深的神经网络越难训练,因为精度可能饱和并且迅速下降,参数跟新比较困难
  • 为了解决深层网络难训练的问题,提出了deep residual network(深度残差网络 ResNet),它的组成模块被定义为 y = F ( X , W i ) + x y = F(X, {W_i}) + x y=F(X,Wi)+x
  • x,y分别代表输入和输出向量, F ( X , W i ) F(X,W_i) F(X,Wi) 是要学习的残差映射,有些文字识别方法用ResNet做主干网络(backbone)来进行特征提取
    在这里插入图片描述
Regions with CNN(R-CNN)

在这里插入图片描述

  • Fast R-CNN中,输入图片和由 selective search 产生的ROI,喂给ConvNet,输出是 softmax probabilities and per-class bounding-box regression offsets
  • Faster R-CNN通过共享整张图像的卷积特征的RPN(区域候选网络)产生ROI,减少了regions proposal 生成的时间,因此更 fast
  • 把一些额外的组件整合到 R-CNN架构中,提出了一些计算高效额文本检测方法
You Only Look Once(Yolo)

在这里插入图片描述

  • yolo是一个单一的卷积网络,把目标检测看做回归问题,它同时预测多个边界框以及这些边界框的类别概率,准确度不高,速度很快。
  • 受yolo启发,提出了FCRN用于场景文字检测。
Single shot detector(SSD)

在这里插入图片描述

  • SSD为边界框的输出空间定义了一组默认边框,并且,它同时预测形状偏移量和对所有目标类别的置信度。
  • SSD中,预测结合了不同分辨率下的多个 feature map,相对于yolo,SSD能有小弟处理多种尺寸的目标,除此之外,相比于基于R-CNN的网络,SSD消除了候选生成和特征重采样(proposal generation and feature resampling)
  • 由于SSD结合了yolo和R-CNN的优点,基于SSD提出了许多文本检测的方法,如,设计有较大宽高比的默认框,多方向的默认框,采用inception-style 卷积滤波器

[1]
:https://www.researchgate.net/profile/Han_Lin11/publication/330331570_Review_of_Scene_Text_Detection_and_Recognition/links/5c39a53e458515a4c71ff2f2/Review-of-Scene-Text-Detection-and-Recognition.pdf

综述1:OCR自然场景文字识别的现状和发展趋势 自然场景文字识别(OCR)是计算机视觉中的一个重要领域,旨在从自然图像中自动检测和识别文本。随着数字化时代的到来,OCR技术在许多领域中发挥着重要作用,例如图像搜索、自然场景的车牌识别、智能制造、智能交通等。然而,由于自然场景的复杂性,OCR技术仍面临着许多挑战,例如光照变化、噪声、倾斜、不同字体等。 当前,OCR自然场景文字识别的主要研究方向包括深度学习模型、数据增强和迁移学习等。其中,深度学习模型已成为OCR自然场景文字识别的主流方法。最近几年,许多基于深度学习的OCR方法已经被提出,例如卷积神经网络(CNN)、循环神经网络(RNN)、注意力机制和半监督学习等。此外,数据增强也是提高OCR自然场景文字识别准确率的重要手段之一。通过对训练集进行旋转、平移、缩放、加噪声等操作,可以扩展训练集,提高模型的鲁棒性。迁移学习也是一种常用的方法,它可以将预训练的模型应用于OCR自然场景文字识别任务中,从而提高模型的泛化能力。 未来,OCR自然场景文字识别的研究方向可能包括更加高效和准确的OCR算法、更加智能的OCR系统、更加丰富和多样化的数据集以及更加适合实际应用场景的OCR技术等。 综述2:OCR自然场景文字识别的基本方法和技术 OCR自然场景文字识别是计算机视觉中的一个重要领域,它的基本任务是从自然图像中自动检测和识别文本。OCR自然场景文字识别通常包括以下步骤:文本检测、文本定位、文本分割和文本识别。文本检测是指从自然图像中检测出文本的位置和大小,文本定位是指确定文本的边界框,文本分割是指将文本分割为单个字符或单词,文本识别是指将单个字符或单词识别为文本。 OCR自然场景文字识别的基本方法和
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值