ASTER: An Attentional Scene Text Recognizer with Flexible Rectification

ASTER是一种针对场景文本识别的解决方案,尤其擅长处理扭曲和不规则文本,如透视和曲线文本。它由校正网络和识别网络组成,校正网络采用参数化的 Thin-Plate Spline(TPS)对输入图像进行矫正,而识别网络则是一个注意力序列到序列模型,用于预测字符序列。ASTER在训练时仅需图像和文本真值,且能增强文本检测器性能。其贡献包括显式校正机制、引入双向解码器的注意力序列到序列模型。ASTER在规则和不规则文本识别中表现出色,且能提升水平文本检测器检测定向文本的能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

                                            ASTER: An Attentional Scene Text Recognizer with Flexible Rectification

 

                  Baoguang Shi, Mingkun Yang, Xinggang Wang, Pengyuan Lyu, Cong Yao, and Xiang Bai              华中科大

                                                                                PAMI2018

                 本文代码 https://github.com/bgshih/aster                      作者主页 http://cloud.eic.hust.edu.cn:8071/~xbai/

 

场景文本识别中的挑战是处理 distortions or irregular 的文本. 特别是 perspective text and curved text are common in natural scenes and are difficult to recognize。aster由a rectification network and a recognition network组成,rectification 网络自适应地将输入图像转换为新图像,对其中的文本进行矫正。识别网络是一个 attentional sequence-to-sequence model 。

训练只需要 images and their groundtruth text,此外aster还能够增强探测器的性能。

场景文本检测识别困难的原因是:The large variations in background,appearance, and layout pose significant challenges。不规则文本typical cases include oriented text, perspective text , and curved text。ASTER通过明确的矫正机制解决了不规则的文本问题。矫正网络是通过一个 parameterized Thin-Plate Spline(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值