论文原文:Graph Convolution for Multimodal Information Extraction from Visually Rich Documents
GCN网络由图卷机+BiLSTM+CRF组成。

node的节点信息是一个三元组。其中包括两个节点信息tit_iti ,tjt_jtj 和二者之间的位置关系rijr_{ij}rij 。对于单独的节点,使用单层的BiLSTM提取特征。对于位置关系rijr_{ij}rij使用如下公式:

其中xijx_{ij}xij和yijy_{ij}yij表示节点i和j之间的水平距离和垂直距离。w,h代表文本框的高度和宽度。
对每个节点tit_iti ,通过一个MLP提取其与第j个邻居的信息hijh_{ij}hij
随后用attention的思想编码 tit_iti :

随后将graph embedding与token embedding结合起来,并将它们输入到标准的BiLSTM-CRF中进行实体提取。

其中的graph embedding就是上文说的 ti′t_i'ti′,token embedding用Word2Vec获得,最后二者concat起来。

模型训练:
1.标注的时候使用IOB标记
2.在实验中,图的卷积层和BiLSTM-CRF提取器是联合训练的。
3.此外,为了提高预测精度,添加了对每个文本段进行段落分类任务。
4.多任务的损失函数使用了《Multi-task learning using uncertainty to weigh losses for scene geometry and semantics》,其中包含了极大似然对损失函数的数学推导,值得一看。
5.模型使用两个真实的数据集进行信息提取。它们是价值附加税发票(VATI)和国际采购收据(IPR)。精度如下:

实验表明,基于图卷积的模型在baseline的基础上都有明显提升,其 中在仅依靠文本信息就可以抽取的字段(如日期)上与baseline持平,而在需要依靠视觉信息 做判断的字段(如价格、税额)上有较大提升。可以看出,GCN中视觉信息起到了主要作用,文本信息对视觉信息起到一定的辅助作用。
论文介绍了一种利用Graph Convolution Network (GCN)进行多模态信息提取的模型,特别强调了在视觉丰富的文档中,通过结合文本和图像信息,显著提升了实体识别的性能,特别是在依赖视觉判断的字段。模型结合了图卷积、BiLSTM、CRF和注意力机制,展示了在VATI和IPR数据集上的实验成果。
359

被折叠的 条评论
为什么被折叠?



