【笔记】Reading Order Equivariant Positional Encoding for Graph-based Document Information Extraction

本文介绍了一种新的位置编码技术——阅读顺序等变位置编码(ROPE),用于图基文档信息抽取。ROPE通过考虑图连接性为相邻单词生成唯一的阅读顺序编码,解决了GCNs在处理文档时丢失特定单词顺序信息的问题。在图构建中采用β-骨架图策略,并使用多头自注意力作为聚合函数。ROPE提供了一种健壮的顺序表示,尤其适用于包含多个列或部分的文档,从而增强文档理解。

【笔记】Reading Order Equivariant Positional Encoding for Graph-based Document Information Extraction

一、简单概括

本文提出了读序等变位置编码Reading Order Equivariant Positional Encoding)(ROPE),一种新的位置编码技术,旨在理解文档中单词的顺序表示。

ROPE为给定单词级图连接的相邻单词相对于目标单词生成唯一的阅读顺序编码

在这项工作中,我们提出了一种简单而有效的读序等变位置编码(ROPE),它将相对读序上下文嵌入到图中,弥合序列和图模型之间的差距,以实现稳健的文档理解。具体来说,对于构造图中的每个单词,ROPE都会根据图的连通性为其相邻单词生成唯一的阅读顺序代码。然后将代码输入具有自注意聚合函数的GCN(Graph Convolutional Networks—图卷积网络),以实现有效的相对读取顺序编码。

ROPE是在GCNs上的改进,弥补了GCNs图聚合操作时,特定的单词排序信息丢失问题。

二、方法:

我们遵循使用GCNs进行文档信息提取的最新进展,通过序列建模放松任何序列化假设。GCNs接受任意数字、大小、形状和位置的输入(本例中的单词标记),并通过直接消息传递和输入嵌入到二维空间之间的梯度更新,对文档的底层空间布局模式进行编码。

2.1 图的节点定义

节点定义:给定一个有N个标记由T={ t1,t2,...,tN}T=\{t_1,t_2,...,t_N\}T={ t1,t2,...,tN}表示的文档D,tit_iti是引用光学字符识别(OCR)引擎返回的线性序列化文本序列中的第i个标记。OCR引擎生成所有标记的边界框(bounding box)的大小和位置,以及每个box内的文本。所有标记TTT节点输入表示定义为顶点

### MEPNet 模型及其在 CT 图像金属伪影减少与稀疏视图重建中的应用 MEPNet(Model-Driven Equivariant Proximal Network)是一种基于模型驱动的深度学习网络架构,专为医学图像重建任务设计,尤其适用于处理稀疏视图 CT 图像重建和金属伪影减少(Metal Artifact Reduction, MAR)问题。该模型结合了传统迭代重建方法与深度学习的优势,通过引入等变性(equivariance)和近端算子(proximal operator)的思想,实现了更高质量的图像重建效果。 #### 模型结构与原理 MEPNet 的核心思想是将传统的迭代重建算法(如 FISTA、ADMM)展开为深度神经网络的形式,并在网络中嵌入可学习的模块,以替代传统手工设计的正则化项。这种展开方式使得模型能够结合物理成像模型的先验知识,同时利用深度学习强大的非线性建模能力。 MEPNet 的网络结构主要包括以下几个关键组件: 1. **等变特征提取模块**:该模块利用旋转和平移等变卷积,提升模型对图像几何结构的感知能力,有助于在重建过程中保留图像的边缘和细节[^3]。 2. **可学习的近端算子**:替代传统迭代算法中的正则化项,通过神经网络学习图像的局部和非局部特征,从而更好地抑制伪影和噪声[^3]。 3. **数据一致性层**:确保重建图像在物理上是合理的,即其投影数据与测量数据保持一致。这一层通常基于前向投影和反投影操作实现[^1]。 #### 在金属伪影减少中的应用 在 CT 成像中,金属植入物会导致 X 射线吸收不均匀,从而在重建图像中产生严重的条纹伪影。MEPNet 通过引入对金属区域的局部正则化策略,能够有效地识别并修正这些区域的不一致性。 MEPNet 在金属伪影减少中的优势包括: - **精确的金属区域分割**:结合金属分割掩模(如红色掩模),模型可以针对性地对金属区域进行优化,减少伪影的传播。 - **多尺度特征融合**:通过局部和非局部特征的融合,模型能够在去除伪影的同时保留周围组织的结构信息。 - **端到端训练**:整个网络可以端到端地训练,避免了传统方法中手动调整参数的繁琐过程[^4]。 #### 在稀疏视图重建中的应用 稀疏视图 CT 重建旨在通过减少投影角度数量来降低辐射剂量,但会导致严重的欠采样伪影。MEPNet 在稀疏视图重建中的表现优于传统方法,主要体现在以下几个方面: - **稀疏数据下的鲁棒性**:MEPNet 能够在极低采样率(如 ×4 欠采样)条件下仍保持高质量的重建效果[^1]。 - **高效的迭代传输机制**:通过引入迭代传输模块(IT 模块),模型可以在每次迭代中更有效地传递和更新特征信息,提高重建效率。 - **结合几何监督信号**:例如深度图和法线图,增强模型对几何结构的理解能力,从而提升重建质量[^2]。 #### 实验结果与性能评估 实验表明,MEPNet 在多个公开数据集上均取得了优于现有方法的重建质量,尤其在稀疏视图和金属伪影场景下表现突出。具体指标包括: - **PSNR(峰值信噪比)**:MEPNet 的 PSNR 比传统 CNN 方法高出 2–4 dB。 - **SSIM(结构相似性)**:在稀疏视图条件下,MEPNet 的 SSIM 值保持在 0.9 以上,显示出良好的结构保持能力。 - **视觉质量**:重建图像在视觉上更加清晰,伪影显著减少,尤其在金属区域和低采样条件下表现优异。 ```python # 示例代码:MEPNet 网络结构简要实现(伪代码) class MEPNet(nn.Module): def __init__(self): super(MEPNet, self).__init__() self.equivariant_encoder = EquivariantConv2D() self.proximal_operator = ProximalNet() self.data_consistency = DataConsistencyLayer() def forward(self, x, mask): features = self.equivariant_encoder(x) prox_features = self.proximal_operator(features) recon = self.data_consistency(prox_features, mask) return recon ``` ---
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值