和上一篇基于attention机制的不规则文字识别论文是同一批作者,博客链接: Show, Attend and Read
由于show attend and read是基于LSTM-encoder-decoder结构的翻译翻译模型(以前翻译的主流框架),隔壁翻译组的同事当时看到就说说不定可以用transformer(现在的主流翻译模型)做ocr,结果。。过了两三个月就真出了基于transformer的ocr paper。由于该论文作者没有给模型去特定的名字,姑且叫做 transformer-ocr 模型(标题的英文是自己起的。。)。
本文论文地址:A Simple and Robust Convolutional-Attention Network for Irregular Text Recognition。
Transformer论文地址:Attention is all you need。
总的来说这篇论文复刻的难度小很多,结构清晰直观,效果也有很不错的表现,在transformer的基础上把encoder部分改为ResNet34,将encoder输出从文本模型的三维(batch, seq, dim)转换为图像卷积后feature map的四维输出(batch, h, w, dim),解码器部分的Multi-Head Attention也同样改为 2D-Attention,git clone整个transformer的github源码稍加修改即可。
先给一下attention机制在图像上的可视化效果(对原图进行加权)就不难理解其为何对曲形文字识别有效了:
对比一下Transformer和本论文的网络结构图:
左图:Transformer 右图:Transformer-OC