Arbitrary-Oriented Scene Text Detection via Rotation Proposals

  • bounding box表示
    使用 ( x , y , w , h , θ ) (x,y,w,h,\theta) (x,y,w,h,θ) 四点坐标方式表示bbox,其中 ( x , y ) (x,y) (x,y) 为bbox中心坐标,不是左上角坐标,因此不用考虑文本方向降低了标注难度;

w , h w,h w,h 分别为长边,短边;(旋转bbox这样定义,对水平bbox水平方向为w垂直方向h)

角度范围只要覆盖180度即可,关键在于如何取角度范围,本文 θ ∈ [ − π 4 , 3 π 4 ] {\theta}\in [\frac{-\pi}{4}, \frac{3\pi}{4}] θ[4π,43π], 为什么这样取值?

四点表示的优点:对于旋转图像做augmentation是更容易处理bbox;相较于八点表示,自由度少更容易优化。

  • 网络结构

基于faster rcnn结构,使用inception-RPN并根据旋转anchor提取一系列的旋转proposal,经过可以crop旋转proposal的RROI pooling层形成固定长度的向量特征,送入分类器分为text、background,清除非文本区域。

  • anchor标定及采样

同faster rcnn,anchor作为proposal的先验,对anchor进行标定及采样的目的是为了rpn loss服务的。本文标定anchor,postive:(1)每个GT对应IOU最大的anchor为postive;(2)anchor与GT的IOU>0.7且角度差不大于 π 12 \frac{\pi}{12} 12π . negative:(1)anchor与GT的IOU<0.3;(2)anchor与GT的IOU>0.7且角度差大于 π 12 \frac{\pi}{12} 12π 。对旋转anchor的标定可以参考这里。

  • anchor生成

适应文本形状,respect ratio改为1:2, 1:5, 1:8(由于width是短边所以都是小数);scale仍是8,16,32;角度为 − π 6 , 0 , π 6 , π 3 , π 2 , 2 π 3 \frac{-\pi}{6},0,\frac{\pi}{6},\frac{\pi}{3},\frac{\pi}{2},\frac{2\pi}{3} 6π06π3π2π32π ,每个像素点对应54个anchor,所以较于faster rcnn处理时间也变为2倍。这里角度的设置恰好使anchor均匀分布在角度范围内,尽量增加正样本个数,这样就能保证更多的anchor被正确回归而提高recall。

  • 损失函数的处理

( x , y , w , h ) (x,y,w,h) (x,y,w,h)处理同frcnn , θ ,\theta ,θ 是直接用GT角度与anchor角度差值作为角度offset,这里不用加一层正弦函数归一化?

  • 性能提升的trick
    使用上下文信息
    是指使用文本的周围信息,yolov1网络直接从整张图像上到bbox而frcnn是在得到proposal后只crop了文本区域,周围的信息没能用到因此没用到上下文(是否这样理解?)。作者直接将GT长宽扩大1.X倍对预测结果再除回来,结果明显提升。

2.增大数据集

作者rotation图像,并将模型在MSRA-TD500, ICDAR2013,ICDAR2015多个数据集上联合训练明显提高了效果。

scale jitter 为了处理小目标,作者随机将图像长边scale到固定值。更多的检测到小目标能提高recall。
Experiment

  • 补充
    倾斜IOU计算
    将两个bbox的相交点,以及其中一bbox在另一bbox内的顶点计入集合P中,对P中点按时钟顺序排序,以其中一个店为准向其他点连线,将相交区域划分成多个三角形,计算三角型面积和即为相交区域面积,则IOU可求。

  • 倾斜RROI pooling
    将proposal和feature map一起进行仿射变换后,在按照原来的ROI pooling操作。

OCR文字识别是一个比较成熟的技术领域,已经有很多相关的研究和文献可供参考。以下是一些可以参考的文献: 1. Shi, B., Bai, X., & Yao, C. (2016). An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE transactions on pattern analysis and machine intelligence, 39(11), 2298-2304. 2. Liu, C., Chen, K., & Kuo, C. C. J. (2018). A deep learning-based approach for handwritten Chinese character recognition. Applied Soft Computing, 70, 910-920. 3. He, P., Huang, W., Qiao, Y., & Loy, C. C. (2017). Reading scene text in deep convolutional sequences. Proceedings of the IEEE International Conference on Computer Vision, 5067-5075. 4. Cheng, Z., Bai, F., Xu, Y., & Zheng, J. (2018). A multi-channel attention-based convolutional neural network for chinese ocr. Journal of Visual Communication and Image Representation, 56, 235-241. 5. Zhang, X., Yin, F., Liu, C. L., & Wang, Y. (2016). Robust reading of vehicle license plates with stacked convolutional neural networks and curriculum learning. IEEE Transactions on Intelligent Transportation Systems, 17(8), 2316-2325. 6. Lee, C. Y., Osindero, S., & Yoon, S. (2016). Recursive recurrent nets with attention modeling for ocr in the wild. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2231-2239. 7. Ma, J., Shao, W., Ye, C., Wang, L., Wang, Y., & Zheng, L. (2019). Arbitrary-oriented scene text detection via rotation proposals. IEEE Transactions on Multimedia, 21(11), 2718-2730. 这些文献可以作为参考,帮助你更深入地了解OCR文字识别领域的研究现状和发展趋势。同时,你也可以通过文献综述等方式,搜集更多的相关文献和信息。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值