论文原文:Graph Convolution for Multimodal Information Extraction from Visually Rich Documents
GCN网络由图卷机+BiLSTM+CRF组成。
node的节点信息是一个三元组。其中包括两个节点信息tit_iti ,tjt_jtj 和二者之间的位置关系rijr_{ij}rij 。对于单独的节点,使用单层的BiLSTM提取特征。对于位置关系rijr_{ij}rij使用如下公式:
其中xijx_{ij}xij和yijy_{ij}yij表示节点i和j之间的水平距离和垂直距离。w,h代表文本框的高度和宽度。
对每个节点tit_iti ,通过一个MLP提取其与第j个邻居的信息hijh_{ij}hij
随后用attention的思想编码 tit_iti :
随后将graph embedding与token embedding结合起来,并将它们输入到标准的BiLSTM-CRF中进行实体提取。
其中的graph embedding就是上文说的 ti′t_i'ti′,token embedding用Word2Vec获得,最后二者concat起来。
模型训练:
1.标注的时候使用IOB标记
2.在实验中,图的卷积层和BiLSTM-CRF提取器是联合训练的。
3.此外,为了提高预测精度,添加了对每个文本段进行段落分类任务。
4.多任务的损失函数使用了《Multi-task learning using uncertainty to weigh losses for scene geometry and semantics》,其中包含了极大似然对损失函数的数学推导,值得一看。
5.模型使用两个真实的数据集进行信息提取。它们是价值附加税发票(VATI)和国际采购收据(IPR)。精度如下:
实验表明,基于图卷积的模型在baseline的基础上都有明显提升,其 中在仅依靠文本信息就可以抽取的字段(如日期)上与baseline持平,而在需要依靠视觉信息 做判断的字段(如价格、税额)上有较大提升。可以看出,GCN中视觉信息起到了主要作用,文本信息对视觉信息起到一定的辅助作用。