OCR方法总结

最新推荐文章于 2025-09-23 11:27:24 发布

原创最新推荐文章于 2025-09-23 11:27:24 发布 · 2.9k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#计算机视觉 #深度学习 #机器学习 #人工智能

本文介绍了文本检测的two-stage方法，包括CTPN、YOLOV3、EAST和Seglink，强调了它们在检测和边界优化上的特点。此外，还概述了一种one-stage方法FOTS，它是一个端到端的框架，解决了角度文本的检测和识别问题。这些方法在提高检测速度和准确性方面各有优势。

一、two-stage方法

1.1 pipeline 检测 + 识别

two-stage的方法把检测任务和识别任务独立开，先通过检测任务框出字符块，再通过识别任务识别字符是什么

a. 检测

CTPN(水平方向)
1. 将文本检测任务转化为一连串小尺度文本框的检测
2. 引入RNN提升文本检测的效果
3. Side-refinement(边界优化)，提升文本框边界预测精准度
YOLOV3(水平方向)
1. 多尺度预测(引入FPN)
2. 更好的基础分类网络（darknet-53，类似于ResNet引入残差结构）
3. 分类器不再使用softmax，分类损失采用binary cross-entropy loss
EAST(倾斜方向)
1. 该方法采用FCN+NMS，消除中间过程冗余，减少检测时间
2. 检测的形状可以是任意形状的四边形：即可以是旋转举行，也可以是普通四边形
3. 采用Locality-Aware NMS来对生成的几何进行过滤(加权nms)
Seglink(倾斜方向)
1. 将文本检测任务转化为一连串小尺度文本框的检测
2. 引入RNN提升文本检测的效果
3. Side-refinement(边界优化)，提升文本框边界预测精准度

b. 识别

CRNN
1. CNN提取图像卷积特征
2. LSTM进一步提取图像卷积特征中的序列特征
3. CTC解决训练时字符无法对齐的问题

二、one-stage方法

FOTS
1. end-to-end框架解决角度文本端到端识别问题
2. RoI Rotate模块的运用，桥接了detection和recognition
3. 模型小、速度快、效果好

三、Reference

https://zhuanlan.zhihu.com/p/37504120
https://zhuanlan.zhihu.com/p/65707543

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。