一、two-stage方法
1.1 pipeline 检测 + 识别
two-stage的方法把检测任务和识别任务独立开,先通过检测任务框出字符块,再通过识别任务识别字符是什么
a. 检测
- CTPN(水平方向)
1. 将文本检测任务转化为一连串小尺度文本框的检测
2. 引入RNN提升文本检测的效果
3. Side-refinement(边界优化),提升文本框边界预测精准度 - YOLOV3(水平方向)
1. 多尺度预测(引入FPN)
2. 更好的基础分类网络(darknet-53,类似于ResNet引入残差结构)
3. 分类器不再使用softmax,分类损失采用binary cross-entropy loss - EAST(倾斜方向)
1. 该方法采用FCN+NMS,消除中间过程冗余,减少检测时间
2. 检测的形状可以是任意形状的四边形:即可以是旋转举行,也可以是普通四边形
3. 采用Locality-Aware NMS来对生成的几何进行过滤(加权nms) - Seglink(倾斜方向)
1. 将文本检测任务转化为一连串小尺度文本框的检测
2. 引入RNN提升文本检测的效果
3. Side-refinement(边界优化),提升文本框边界预测精准度
b. 识别
- CRNN
1. CNN提取图像卷积特征
2. LSTM进一步提取图像卷积特征中的序列特征
3. CTC解决训练时字符无法对齐的问题
二、one-stage方法
- FOTS
1. end-to-end框架解决角度文本端到端识别问题
2. RoI Rotate模块的运用,桥接了detection和recognition
3. 模型小、速度快、效果好
三、Reference
https://zhuanlan.zhihu.com/p/37504120
https://zhuanlan.zhihu.com/p/65707543
本文介绍了文本检测的two-stage方法,包括CTPN、YOLOV3、EAST和Seglink,强调了它们在检测和边界优化上的特点。此外,还概述了一种one-stage方法FOTS,它是一个端到端的框架,解决了角度文本的检测和识别问题。这些方法在提高检测速度和准确性方面各有优势。
9万+

被折叠的 条评论
为什么被折叠?



