论文阅读和分析:Multi-Scale Attention with Dense Encoder for Handwritten Mathematical Expression Recognition

该论文系列关注于手写数学表达式识别(HMER)的任务,提出了将DenseNet与多尺度注意力模型结合的方法,以改善细小符号如小数点的识别。核心模型包括多尺度注意力编码器,它利用GRU和覆盖注意力机制来处理特征。实验表明,增加DenseBlock的深度可以提高识别性能,并与其他模型相比表现出优势。

HMER论文系列
1、论文阅读和分析:When Counting Meets HMER Counting-Aware Network for HMER_KPer_Yang的博客-优快云博客
2、论文阅读和分析:Syntax-Aware Network for Handwritten Mathematical Expression Recognition_KPer_Yang的博客-优快云博客
3、论文阅读和分析:A Tree-Structured Decoder for Image-to-Markup Generation_KPer_Yang的博客-优快云博客
4、 论文阅读和分析:Watch, attend and parse An end-to-end neural network based approach to HMER_KPer_Yang的博客-优快云博客
5、 论文阅读和分析:Multi-Scale Attention with Dense Encoder for Handwritten Mathematical Expression Recognition_KPer_Yang的博客-优快云博客
6、 论文阅读和分析:Mathematical formula recognition using graph grammar_KPer_Yang的博客-优快云博客
7、 论文阅读和分析:Hybrid Mathematical Symbol Recognition using Support Vector Machines_KPer_Yang的博客-优快云博客
8、论文阅读和分析:HMM-BASED HANDWRITTEN SYMBOL RECOGNITION USING ON-LINE AND OFF-LINE FEATURES_KPer_Yang的博客-优快云博客

主要工作:

1、将当时比较火的DenseNet用到HMER任务中;

2、使用多尺度注意力模型,通过将高分辨率、低语义的特征和低分辨率、高语义特征相融合,识别出细小符号,例如小数点;

核心模型实现:

1、多尺度注意力编码器:

在这里插入图片描述

k:growth rate

D:(number of convolution layers) of each block:

for example:D = 32 which means each block has 16 1 × 1 convolution layers and 16 3 × 3 convolution layers.(A batch normalization layer [24] and a ReLU activation layer [25] are performed after each convolution layer consecutively)

流程:

(1)先从正常的DenseNet中,第一个池化层分出,进行DenseB的处理得到B: B ∈ R 2 H × 2 W × C ′ \mathbf{B}\in \mathbb{R} ^{2H \times 2W \times C^{'}} BR2H×2W×C.

(2)GRU计算t步的s hat;
s ^ t = G R U ( y t − 1 , s t − 1 ) \mathbf{\hat{s}}_t=GRU\left(\mathbf{y}_{t-1},\mathbf{s}_{t-1}\right) s^t=GRU(yt1,st1)
(3)计算A和B的a single-scale coverage based attention model.
c A t = f c a t t ( A , s ^ t ) c B t = f c a t t ( B , s ^ t ) \mathbf{c}\mathbf{A}_{t}=f_{\mathrm{catt}}\left(\mathbf{A},\mathbf{\hat{s}}_{t}\right)\\ \mathbf{cB}_{t}=f_{ {\mathrm{catt}}}\left(\mathbf{B},\mathbf{\hat{\mathbf{s}}}_{t}\right) cAt=fcatt(A,s^t)cBt=fcatt(B,

### 多尺度密集网络在深度高动态范围成像中的应用 多尺度密集网络(Multi-Scale Dense Networks, MSDNets)通过引入不同尺度的感受野,在处理图像时能够捕捉到更多的细节信息。这种特性使得MSDNets非常适合用于深高动态范围(Deep High Dynamic Range Imaging, Deep HDR Imaging)。HDR技术旨在扩展传统低动态范围(LDR) 图像的亮度范围,从而更真实地反映现实世界的光照条件。 #### 应用背景 传统的单张LDR照片无法充分表示场景中存在的极端亮暗对比度变化。为了克服这一局限性并实现高质量的HDR重建,研究人员探索了多种方法技术。近年来,基于卷积神经网络(CNNs)的方法逐渐成为主流解决方案之一[^1]。 #### 实现原理 MSDNet利用其独特的架构设计来增强特征提取能力: - **跨层连接**:每一层都与其后的所有层次相连,形成密集连接模式; - **复合增长率**:随着网络加深而逐步增加通道数,有助于保持梯度流动稳定性参数效率; - **多分支结构**:允许模型在同一时间学习多个分辨率下的表征,进而提高对于复杂光影效果建模的能力; 这些特点共同作用下,使MSDNet能够在输入几张曝光不同的LDR图片作为训练样本的情况下有效地预测出对应的HDR图像[^2]。 ```python import torch.nn as nn class MultiScaleDenseBlock(nn.Module): def __init__(self, num_layers=8, growth_rate=32): super(MultiScaleDenseBlock, self).__init__() layers = [] for i in range(num_layers): layer = _make_layer(in_channels=i*growth_rate + input_channels, out_channels=growth_rate) layers.append(layer) self.block = nn.Sequential(*layers) def _make_layer(in_channels, out_channels): return nn.Conv2d(in_channels=in_channels, out_channels=out_channels, kernel_size=(3, 3), padding='same') ``` 此代码片段展示了如何构建一个多尺度密集块的基础框架,其中包含了若干个由卷积操作组成的子模块。实际应用中还需要加入批量归一化(Batch Normalization),激活函数(ReLU)等组件以完善整个网络的设计。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

KPer_Yang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值