曲形文字识别 - Transformer-based Convolutional-Attention Network for Irregular Text Recognition

和上一篇基于attention机制的不规则文字识别论文是同一批作者,博客链接: Show, Attend and Read

由于show attend and read是基于LSTM-encoder-decoder结构的翻译翻译模型(以前翻译的主流框架),隔壁翻译组的同事当时看到就说说不定可以用transformer(现在的主流翻译模型)做ocr,结果。。过了两三个月就真出了基于transformer的ocr paper。由于该论文作者没有给模型去特定的名字,姑且叫做 transformer-ocr 模型(标题的英文是自己起的。。)。

本文论文地址:A Simple and Robust Convolutional-Attention Network for Irregular Text Recognition

Transformer论文地址:Attention is all you need


总的来说这篇论文复刻的难度小很多,结构清晰直观,效果也有很不错的表现,在transformer的基础上把encoder部分改为ResNet34,将encoder输出从文本模型的三维(batch, seq, dim)转换为图像卷积后feature map的四维输出(batch, h, w, dim),解码器部分的Multi-Head Attention也同样改为 2D-Attention,git clone整个transformer的github源码稍加修改即可。

先给一下attention机制在图像上的可视化效果(对原图进行加权)就不难理解其为何对曲形文字识别有效了:

对比一下Transformer和本论文的网络结构图:

左图:Transformer                                                            右图:Transformer-OC

评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值