这篇文章主要的贡献点主要有两个:
1)在RROI 阶段,多尺度的pooling (7x7,3x11,11x3).
2)除了坐标对齐的bbox坐标回归,添加了inclined box的坐标回归(x1,y1,x2,y2,h)。[注:x1,y1,x2,y2分布是bbox按顺时针方向定义的两个角点]
网络结构如下:
该方法的训练集:1000(icdar15_trainingset)+ 2000(focused scene text images that authors collected)+data-augmentation=39000
在ICDAR15上的性能:
PK其它方法:
ICDAR15:
ICDAR13: