9:论文学习笔记九《BP-bert》

热爱文学的码农

已于 2022-03-09 10:40:15 修改

阅读量741

点赞数 1

文章标签：学习 bert 深度学习

于 2022-02-24 13:18:32 首次发布

本文链接：https://blog.youkuaiyun.com/qq_41887799/article/details/123109540

版权

1.介绍

近年来，多模态命名实体识别(multimodal named entity recognition, MNER)利用图像来提高推文命名实体识别的准确性。然而，大多数多模态方法使用注意机制来提取视觉线索，而不考虑文本和图像是否相关。实际上，不相关的文本-图像对在推文中占很大比例。与文本无关的视觉线索会对多模态学习产生不确定性甚至负面影响。本文在多模态BERT模型中引入一种文本-图像关系传播方法。我们整合软门或硬门来选择视觉线索，并提出一种多任务算法来训练MNER数据集。在实验中，我们深入分析了文本-图像关系传播前后视觉注意的变化。我们的模型在MNER数据集上达到了最先进的性能。源代码可以在网上找到。

Twitter等社交媒体平台已经成为许多人日常生活的一部分。它们是各种信息提取应用的重要来源，如开放事件提取(Wang, Deyu, and He 2019)和社会知识图构建(Hosseini 2019)。命名实体识别(named entity recognition, NER)是这些应用程序的重要组成部分，其目的是检测命名实体(named entity, NEs)，并将其分类为预定义类型，如人员(person, PER)、位置(location, LOC)和组织(organization, ORG)。最近，基于多模态学习的推文作品不断增加(Moon、Neves和Carvalho 2018;Lu等人2018年;Zhang et al. 2018;Arshad等人2019年;Yu等人，2020)。这些研究人员试图借助推文中的视觉线索来增强语言表征。大多数MNER方法使用注意力权重来提取与NEs相关的视觉线索(Lu等人，2018;Zhang et al. 2018;Arshad等人2019年)。例如，事实上，推特上的文字和图片也可能无关紧要。Vempala和Preo tiuc-Pietro(2019)根据图片是否增加了推特的含义对文本-图片关系进行了分类。

在Vempala的文本-图像关系分类(TRC)数据集中约占56%的实例。此外，我们在随机收集的大型语料库Twitter100k (Hu et al. 2017)上训练了一个Image是否添加推文含义的分类器，分类后的负面信息的比例约为60%。尽管文本和图像不相关，但基于注意的模型也会产生视觉注意，这种视觉注意可能会对文本推理产生负面影响。

2.实现方式

为了解决多模态模型中视觉注意线索不恰当的问题，本文考虑了文本-图像关系的推断。本文的贡献可以总结如下:

提出了一种基于文本图像关系传播的多模态BERT模型。通过训练模型，研究了文本-图像关系的软、硬传播方式。文中还提出了文本-图像关系分类和下游NER的多重任务。

我们通过数值分布和热图来洞察视觉注意力。文本-图像关系传播既能减少无关图像的干扰，又能为相关的文本-图像对提供更多的视觉信息。实验结果表明，该模型能够正确识别相关工作中的失效案例，取得了较好的性能。

Multimodal NER Moon等人(2018)在NER网络的输入处提出了。该模块计算单词嵌入层、字符嵌入和视觉特征的加权模态组合。Lu等人(2018)提出了一种视觉注意模型，用来寻找与文本内容相关的图像区域。通过对文本查询向量与区域视觉表示之和进行线性投影，计算出图像区域的注意力权重。提取的视觉上下文特征被整合到biLSTM模型的词级输出中。Zhang等人(2018)设计了一种自适应共同注意网络(ACN)层，该层位于LSTM层和CRF层之间。该ACN包含一个门控多模态融合模块，用于学习视觉和语言特征的融合向量。作者设计了一个过滤门来确定融合特征是否有助于提高标记的准确性。采用s型激活函数计算过滤门的输出分数。Arshad等人(2019)也为每个令牌提出了一种门控多模态融合表示。门控融合是视觉注意特征和令牌对齐特征的加权和。视觉注意特征由VGG-19 (Simonyan and Zis- serman 2014)视觉特征的加权和计算，加权值为单词查询与图像特征之间的注意得分相加。总体而言，注意引导模型的问题在于，对于不相关的文本-图像对，提取的视觉上下文线索与文本不匹配。(Lu et al. 2018;Arshad et al. 2019)展示了一些失败的例子，其中不相关的图像提供了误导性的视觉注意，并产生了预测错误。

预训练多模态BERT模型在自然语言处理中取得了很大的成功。最新提出的基于BERT架构的视觉语言模型包括VL-BERT (Su et al. 2019)、ViLBERT (Lu et al. 2019)、VisualBERT (Li et al. 2019)、UNITER (Chen et al. 2020)、LXMERT (Tan and Bansal 2019)和unicode - vl (Li et al. 2020)。本文从以下三个方面对现有的视觉语言BERT模型进行了总结和比较:1)建筑。unicode - vl、VisualBERT、VL-BERT和UNITER的结构与vanilla BERT相同。将图像和文本符号组合成一个序列，输入BERT算法学习上下文嵌入。LXMERT和ViLBERT将视觉和语言处理分离成两个流，分别通过跨模态或共注意变压器层进行交互。2)视觉再现。图像特征可以表示为感兴趣区域(region-of-interest, RoI)或块区域。以上所有的预训练模型都使用Fast R-CNN (Girshick 2015)来检测对象和集合RoI特征。RoI检测的目的是降低视觉信息的复杂性，并利用语言线索执行掩蔽区域分类任务(Su et al. 2019;Li et al. 2020)。然而，对于非相关文本-图像对，非有用的和显著的视觉特征会增加对语言特征的干扰。此外，对象识别类别受到限制，许多网元没有相应的对象类别，如公司商标和景点位置。3) Pretraining任务。这些模型是在诸如COCO字幕数据集(Chen等人，2015年)或概念字幕集(Sharma等人，2018年)等图像字幕数据集上训练的。训练前任务主要包括(MLM)、(MRC) (Chen et al. 2020;Tan和Bansal 2019年;Li等人2020年;Su等人2019年)和图像-文本匹配(ITM) (Chen等人2020年;Li等人2020年;Lu等人，2019)。ITM任务是一种二值分类，它将标题数据集中的对定义为正数，而将成对示例中的图像或文本替换为其他随机选择的示例中的图像或文本生成的对定义为负数。假设标题数据集中的文本-图像对高度相关;但是，在文本-图像对的tweets中，这个假设是不成立的。无论图像是否有助于文本的语义，在最新的多模态模型中，视觉特征总是直接与语言特征连接在一起(Yu and Jiang 2019)，或通过注意力权重提取，导致表7所示的MNER示例失败。因此，在本研究中，我们探索一种BERT的多模态变体来对具有不同文本-图像关系的推文进行多模态估计。

在本节中，我们介绍了一个多模态NER的基于文本图像关系传播的BERT模型(RpBERT)，如图2所示。本文对RpBERT体系结构进行了说明，并详细描述了其训练过程。我们的RpBERT将传统的BERT扩展到文本-图像关系分类和MNER的视觉-语言学习的多任务框架。首先，与大多数视觉语言BERT相似，我们将普通BERT用于多模态输入。RpBERT的输入序列设计如下

其中[CLS]为文本-图像关系分类， [SEP]表示文本和图像特征的分离，T={w1，…， wn}表示一个语言特征序列，V={v1，…， vm}表示一个虚拟特征序列。

它将未知单词分解为多个单词块标记。与最新的视觉-语言BERT模型不同(Su等人2019;Lu等人2019年;Li et al. 2020)，我们将视觉特征表示为块区域，而不是roi。ResNet从图像中提取视觉特征(He et al. 2016)。ResNet中最后一个卷积层的输出大小为7 7 dv，其中7 7表示图像中49块区域。将提取的块区域{fi,j}7i,j =1的特征排列成图像块嵌入序列{b1 = f1,1Wv，…，b49 = f7,7Wv}，其中fi,j R1 dv和Wv Rdv dBERT匹配BERT的嵌入大小，使用ResNet-152时dv = 2048。在BERT中，标记的嵌入嵌入是词标记嵌入(或图像块嵌入)、段嵌入和位置嵌入的总和。分段嵌入有两种类型，其中A表示文本标记，B表示图像块。单词符号的位置嵌入是根据句子中的词序来学习的，但视觉符号的位置都是相同的。令牌[CLS]的输出作为文本-图像关系分类任务#1的二分类器馈送给全连

接(FC)层。此外，我们使用如图2所示的概率门G来生成概率[π0， π1]。文本图像相关分值r定义为为正的概率