文字检测是文字识别的先觉条件。
- 关于选题
- 感兴趣领域,文字检测与识别在现实场景中充满应用需求,现有算法仍有改善和提升空间;
- 数据公开度,有些比赛数据集是不公开的,或者脱敏做得过度,这样不利于通过比赛提升对客观世界认知,缺少这种认知提升的话,不利于最终活学活用算法;
- 算法通用性,通过比赛能够熟练掌握或精通几个算法框架,所以比赛中能用到的算法越新、越通用越好;
- 工程量要根据自身的特点来选择。如果侧重算法,就不要选择需要大量数据清洗的比赛;此外工程量太大,最好是有一个很熟悉的团队明确分工,当然也有一些编程功力深厚的高手可以solo;
2. 常见的深度学习算法
- CTPN:只能检测水平文本,通过Faster R-CNN+LSTM预测固定宽度的text proposal,在后处理部分再将这些小文本段连接起来,得到文本行。
- EAST:继承DenseBox和UnitBox,通过预测shrink的文字区域,并对区域内的每个像素预测它到上下左右的四个距离和一个旋转角度,Pipeline简单,速度较快。
- TextBoxes/TextBoxes++:只能检测水平文本,TextBoxes基于SSD修改卷积核尺寸,更适合文字检测;能检测倾斜文字,TextBoxes++基于TextBoxes,将回归水平box改为回归上下左右4个点。
- RRPN:基于Faster R-CNN,通过引入rotate anchor,实现多方向的文字检测,但是引入的anchor成倍增加,速度较慢,计算量也较大。
- PSENet/SPCNet:分别代表Bottom-Up和Top-Down方法,由旷视研究院检测组提出。用于弯曲文字检测。