
公式识别
文章平均质量分 86
wxplol
这个作者很懒,什么都没留下…
展开
-
LAST论文翻译
我们提出了一种具有线感知能力的半自回归变换器(LAST),它将多线数学表达式序列视为二维双端结构。该LAST利用线向双端解码策略并行解码多线数学表达式,并在每行内执行双端解码。具体地说,我们引入了一个线感知位置编码模块和一个行分区双端掩码,以赋予LAST线顺序感知和方向性。原创 2023-11-17 11:07:49 · 458 阅读 · 0 评论 -
SAM论文翻译
目前的方法不能明确地学习不同符号之间的相互作用,当面对相似的符号时可能会识别错误。为了缓解这个问题,我们提出了一种简单而有效的方法来增强语义交互学习(SIL)。具体来说,我们首先构造了一个基于统计符号共现概率的语义图。然后设计了一个语义感知模块(SAM),它将视觉和分类特征投射到语义空间中。不同投影向量之间的余弦距离表示符号之间的相关性。联合优化HMER和SIL可以提高模型对符号关系的理解。此外,SAM可以很容易地插入到现有的基于注意力的HMER模型中。原创 2023-09-07 17:32:08 · 426 阅读 · 0 评论 -
PARSeq论文翻译
PARSeq通过排列语言建模来学习具有共享权重的内部自回归语言模型的集合。它统一了上下文无关的非自回归和上下文感知的自回归推理,并使用双向上下文的细化迭代。原创 2023-06-02 10:36:49 · 1246 阅读 · 0 评论 -
CoMER论文翻译
我们提出了一种新的注意细化模块(ARM),在不影响其并行性的情况下,利用过去的对齐信息来细化注意力权重。此外,我们通过自我覆盖和交叉覆盖,将覆盖信息发挥到极致,它利用了当前和过去的对齐信息。原创 2023-01-03 18:08:32 · 680 阅读 · 1 评论 -
CAN论文翻译
我们为手写字识别设计了一个叫做CAN的网络,这个网络加入了两个优化任务:手写公式识别和符号计数。具体来说,我们设计了一个弱监督计数模型,这个模型不需要符号位置也能预测符号的个数,然后将其插入到编解码结构的手写公式识别模型中。在HMER的基准数据集上的实验验证表明,联合优化计数模型和手写公式模型,利于纠正编解码器模型的预测误差,并且CAN始终优于当前最先进的方法。特别是,与HMER的编解码器模型相比,所提出的计数模块所造成的额外时间成本是边际的。原创 2022-10-25 19:26:11 · 1017 阅读 · 0 评论 -
BTTR论文翻译
代码地址:https://github.com/Green-Wood/BTTR本文采用基于transformer的解码器代替基于RNN的解码器,使整个模型体系结构更加简洁。此外,还引入了一种新的训练策略来充分利用transformer在双向语言建模中的潜力。现存的方法在不同程度上存在覆盖范围缺乏的问题。这个问题主要由两种表现形式:过度解析和解析不足的问题。过度解析意味着HME图像中的某些区域被多次冗余翻译,而不足解析则表示某些区域仍然未翻译。大多数编-解码模型都是基于RNN的模型,它们很难建模出相距很远的两原创 2022-06-19 22:49:40 · 1386 阅读 · 1 评论 -
【深度学习系列(三)】:基于CNN+seq2seq公式识别系统实现 (3)
3.1、贪心搜索贪心搜索是一种来自计算机科学的算法,生成第一个词的分布以后,它将会根据你的条件语言模型挑选出最有可能的第一个词进入你的机器翻译模型中,在挑选出第一个词之后它将会继续挑选出最有可能的第二个词,然后继续挑选第三个最有可能的词,这种算法就叫做贪心搜索。这种算法就是在每一步中挑选当前最大概率的结果,并将这个结果作为下一次的输入,并得到这一步的最大概率作为这一次的结果,以此类推。该代码位于:./model/components/greedy_decoder_cell.py中。当然这只是获取当前输原创 2019-09-05 17:03:48 · 1248 阅读 · 0 评论 -
【深度学习系列(三)】:基于CNN+seq2seq公式识别系统实现 (2)
2、公式的Decoder现在我们已经有了公式图片的编码部分,其大小为NxHxWxC。但是如何将他运用于seq2seq中解码器中呢?这里需要一个转化的过程,来实现对解码器器的输入。2.1、细胞状态的初始化对于编码部分的最后一层,我们需要将其转化为隐藏向量并作为解码部分细胞状态的初始值。这里采用一个全连接操作,通过学习权重W、b来计算其转化后的向量。具体计算公式如下: ......原创 2019-08-23 10:44:39 · 1851 阅读 · 1 评论 -
【深度学习系列(三)】:基于CNN+seq2seq公式识别系统实现 (1)
这段时间一直在做公式识别相关的项目,尝试了传统的方法,效果不怎么好。想到能不能使用深度学习的方法进行相关方法。然后在github找到了相关代码,这里做下分析。具体github地址:https://github.com/LinXueyuanStdio/LaTeX_OCR。废话不多说开始搞起。一、模型细节神经网络模型是 Seq2Seq + Attention + Beam Search。S......原创 2019-08-21 14:47:13 · 4537 阅读 · 1 评论 -
ABM论文翻译
项目地址:https://github.com/XH-B/ABM本文提出一种基于双向交互学习的注意力聚合模型(ABM),这个模型由两个并行且方向相反的编码器(L2R和R2L)组成。这两个编码器通过相互蒸馏,使得在每一步一对一信息传递的训练中,两个方向的互补信息被充分利用。另外,为了处理不同尺度的数学符号,本文提出了注意力聚合模型(AAM),这个模型能够聚合不同尺度下的注意力。值得注意的是,在推理阶段,考虑到模型已经从两个方向学习知识,所以只使用L2R部分的分支进行推理,这样能够保持了原始参数的大小和推理速度原创 2022-06-14 09:03:18 · 868 阅读 · 0 评论