
文本识别
文章平均质量分 93
文本识别论文笔记
CharlesWu123
分享平时积累与学习的内容,研究方向:OCR,图像,深度学习。
展开
-
ReadLikeHumans: Autonomous,Bidirectional and Iterative Language Modeling for Scene Text Recognition
首先,自治显性定义视觉模型与语言模型,视觉模型只负责图像分类的功能,而语言模型只负责语言建模的功能。其次,基于双向特征表示的 BCN(Bidirectional cloze network)作为语言模型,消除了组合两个单向模型的问题。通过指定注意掩码来控制双方字符的访问,从而在左右上下文中共同受到限制。同样,不允许跨时间步访问以防止泄漏信息。第三,语言模型迭代校正的执行方式,可以有效减轻噪声输入的影响。通过将 ABINet 的输出反复输入到 LM,可以逐步完善预测,并可以在一定程度上缓解长度不齐的问题。原创 2021-03-26 09:42:47 · 992 阅读 · 0 评论 -
SPIN: Structure-Preserving Inner Offset Network for Scene Text Recognition —— 论文阅读笔记
SPIN:用于场景文本识别的保留结构的内部偏移网络Paper : 论文地址本文提出的方法主要解决色彩失真的图片。如下图中的(c)和(d)SPIN(Structure-Preserving Inner Offset Network),一种可学习的几何无关的矫正,可以对网络中的原数据进行颜色处理。可以在任何识别体系结构之前插入此模块,以减轻下游任务的负担,使神经网络能够主动转换输入强度,而不仅仅是空间校正。 它也可以作为已知空间变换的补充模块,并以独立和协作的方式与它们一起工作。色彩失真可以分为原创 2021-03-03 18:41:38 · 1311 阅读 · 7 评论 -
CTC算法详解之训练篇
现实应用中许多问题可以抽象为序列学习(sequence learning)问题,比如词性标注(POS Tagging)、语音识别(Speech Recognition)、手写字识别(Handwriting Recognition)、机器翻译(Machine Translation)等应用,其核心问题都是训练模型把一个领域的(输入)序列转成另一个领域的(输出)序列。近年来基于RNN的序列到序列模型(sequence-to-sequence models)在序列学习任务中取得了显著的效果提升,本文介绍一种RNN转载 2021-03-02 20:16:30 · 1566 阅读 · 0 评论 -
Adaptive Text Recognition through Visual Matching —— 论文阅读笔记
官方链接:https://www.robots.ox.ac.uk/~vgg/research/FontAdaptor20/Paper:https://arxiv.org/pdf/2009.06610.pdfCode&Data:https://github.com/Chuhanxx/FontAdaptor文中提出了几个目前主流识别方法的限制:识别模型专门针对训练集中的字体和纹理,因此对新的视觉风格的通用性较差。解码器对固定的字母/字符数进行辨别。编码器和解码器是相互绑定的,因此不能在.原创 2021-01-05 11:08:58 · 583 阅读 · 1 评论 -
Exploring Font-independent Features for Scene Text Recognition —— 论文阅读笔记
Paper:https://arxiv.org/pdf/2009.07447.pdfCode:https://github.com/Actasidiot/EFIFSTR目前的场景文本识别方法没有特别关注字体的风格,因此在不同风格的字体识别会有差异,识别效果不是特别好。针对这个问题,文章提出了使用空间注意力机制和字体风格嵌入向量来学习字体无关特征,通过重建同种类别、其他多种风格的标准形态文字,使得CNN学习的特征尽可能地只与本身字符类别有关,与其本身的风格尽可能解耦。EFIFSTREFITSTR.原创 2020-12-30 15:15:51 · 266 阅读 · 0 评论 -
RobustScanner: Dynamically Enhancing Positional Clues for Robust Text Recognition —— 论文阅读笔记
Paper : https://arxiv.org/abs/2007.07542v2基于注意力的编码-解码结构的网络在缺少上下文信息的文本上表现不好(比如随机字符下图)。一个字符序列的解码不仅利用上下文信息也利用位置信息,但是在注意力机制中,严重依赖于上下文信息,随着时间步的增加,位置信息逐渐被淹没,会导致后边的字符出现对齐漂移和误识别。为了解决这个问题,提出了位置增强分支,并将其输出与注意力模块的输出动态融合。位置增强分支包含一个位置感知模块(使编码器编码自己的空间位置以输出自己的位置特征向量)和一.原创 2020-12-29 17:44:20 · 726 阅读 · 1 评论 -
SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition ---论文阅读笔记
Paper : https://arxiv.org/abs/2005.10977Code : https://github.com/Pay20Y/SEED针对图像模糊,照明不均匀和字符不完整的问题提出模型 SEED(语义增强的编解码框架),可以识别低质量的场景文本。SEED 基本流程图像输入到矫正模块,将不规则形状的文本矫正为水平文本;将矫正后的特征输入到编码器 ( CNN + LSTM ) ,输出 hhh使用两个线性函数将 hhh 处理为语义信息 SSS使用语义信息 SSS 作为解码.原创 2020-07-16 19:44:06 · 1820 阅读 · 0 评论 -
SRN: Towards Accurate Scene Text Recognition with Semantic Reasoning Networks ---论文阅读笔记
Paper : https://arxiv.org/abs/2003.12294PipelineSemantic Reasoning Networks ( SRN) : Backbone Network + Parallel Visual Attention Module ( PVAM ) + Global Semantic Reasoning ( GSRM ) + Visual-Semantic Fusion Decoder ( VSFD )Backbone network : 主干网络,使用.原创 2020-07-16 19:40:56 · 3475 阅读 · 4 评论 -
SCATTER: Selective Context Attentional Scene Text Recognizer --- 论文阅读笔记
Paper : https://arxiv.org/abs/2003.11288SCATTER 在训练过程中采用了带有中间监督的堆叠式块体系结构,从而为成功训练深度 BiLSTM 编码器铺平了道路,从而改善了上下文相关性的编码。 解码使用两步注意力机制完成。 第一步是对CNN主干的视觉特征以及BiLSTM层计算的上下文特征进行加权。 第二个注意力将这些特征视为一个序列,并加入到序列间的关系中。PipelineSCATTER 包含四部分,在 Visual Feature Refinement 部.原创 2020-07-16 19:25:53 · 1561 阅读 · 0 评论 -
ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network 自适应 Bezier 曲线网络实时场景文本识别
基于 FPN 的 Anchor-Free 的文本检测模块,连接检测和识别的采样模块,轻量级的识别模块。使用参数化的 Bezier 曲线 自适应的拟合任意形状的文本 为了在图像中准确定位定向的和弯曲的场景文本,首次使用 Bezier 曲线引入了一种新的简洁的弯曲场景文本的参数化表示形式。 与标准边界框表示相比,它引入的计算开销可忽略不计。 提出了一种采样方法,也称为 BezierAlign,用于精确的特征对齐,因此识别分支可以自然地连接到整个结构。 通过共享主干特征,可以将识别分支设计原创 2020-06-24 16:58:36 · 3286 阅读 · 1 评论 -
CRNN文本识别----论文阅读笔记
优点可以直接从序列标签学习,不需要详细的标注具有直接从图像数据学习信息表现的DCNN的相同性质,既不需要手工特征也不需要预处理步骤,包括实体化/分割,组件定位等;具有 RNN 相同的性质,能够产生一系列标签对类序列对象的长度无约束,只需要在训练阶段和测试阶段对高度进行归一化比标准 DCNN 模型包含的参数要少的多,占用更少的存储空间特征序列提取缩放到相同的高度从卷积...原创 2019-07-08 14:21:09 · 1981 阅读 · 4 评论