KIE - Graph Convolution Network

阿飞大魔王

已于 2022-09-12 12:54:53 修改

阅读量759

点赞数

CC 4.0 BY-SA版权

分类专栏： KIE 文章标签：深度学习人工智能机器学习

于 2022-09-12 10:45:34 首次发布

本文链接：https://blog.youkuaiyun.com/lucifer_24/article/details/126814287

KIE 专栏收录该内容

2 篇文章

订阅专栏

论文介绍了一种利用Graph Convolution Network (GCN)进行多模态信息提取的模型，特别强调了在视觉丰富的文档中，通过结合文本和图像信息，显著提升了实体识别的性能，特别是在依赖视觉判断的字段。模型结合了图卷积、BiLSTM、CRF和注意力机制，展示了在VATI和IPR数据集上的实验成果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文原文：Graph Convolution for Multimodal Information Extraction from Visually Rich Documents

GCN网络由图卷机+BiLSTM+CRF组成。
GCN算法流程
node的节点信息是一个三元组。其中包括两个节点信息 $t_i$ ， $t_j$ 和二者之间的位置关系 $r_{ij}$ 。对于单独的节点，使用单层的BiLSTM提取特征。对于位置关系 $r_{ij}$ 使用如下公式：
在这里插入图片描述

其中 $x_{ij}$ 和 $y_{ij}$ 表示节点i和j之间的水平距离和垂直距离。w，h代表文本框的高度和宽度。

对每个节点 $t_i$ ，通过一个MLP提取其与第j个邻居的信息 $h_{ij}$ 在这里插入图片描述
随后用attention的思想编码 $t_i$ ：

随后将graph embedding与token embedding结合起来，并将它们输入到标准的BiLSTM-CRF中进行实体提取。
在这里插入图片描述
其中的graph embedding就是上文说的 $t_i'$ ，token embedding用Word2Vec获得，最后二者concat起来。

模型训练：

1.标注的时候使用IOB标记

2.在实验中，图的卷积层和BiLSTM-CRF提取器是联合训练的。

3.此外，为了提高预测精度，添加了对每个文本段进行段落分类任务。

4.多任务的损失函数使用了《Multi-task learning using uncertainty to weigh losses for scene geometry and semantics》，其中包含了极大似然对损失函数的数学推导，值得一看。

5.模型使用两个真实的数据集进行信息提取。它们是价值附加税发票(VATI)和国际采购收据(IPR)。精度如下：
在这里插入图片描述
实验表明，基于图卷积的模型在baseline的基础上都有明显提升，其中在仅依靠文本信息就可以抽取的字段（如日期）上与baseline持平，而在需要依靠视觉信息做判断的字段（如价格、税额）上有较大提升。可以看出，GCN中视觉信息起到了主要作用，文本信息对视觉信息起到一定的辅助作用。