Neural Motifs
Abstract
我们研究产生视觉场景的结构化图形表示的问题。 我们的工作分析了图案的作用:场景图中经常出现的子结构。 我们在视觉基因组数据集中对此类重复结构提出了新的定量见解。 我们的分析表明,对象标签对关系标签具有高度的预测能力,但反之则不然。 我们还发现,即使在较大的子图中,也存在重复的模式:超过50%的图包含涉及至少两个关系的图案。 我们的分析提出了一个新的基准:给定对象检测,预测给定标签的对象对之间最频繁的关系,如训练集中所示。 在所有评估设置中,此基准相对于以前的最新技术平均平均提高了3.6%。 然后,我们引入了堆叠式母题网络,这是一种旨在捕获场景图中的高阶图案的新架构,该架构在我们的强基准上进一步以平均7.1%的相对增益进行了改进。
1. Introduction
我们研究了场景图解析:产生真实世界图像的图形表示的任务,该图像表示提供了对象及其关系的语义摘要。 例如,图1中的图形编码关键对象的存在,例如人(“男人”和“女人”),他们的位置(“头盔”和“摩托车”,都由女人拥有)及其活动(女人 是“骑”“摩托车”)。 预测这样的图形表示可改善基于自然语言的图像任务[17、43、51],并有可能显着扩展计算机视觉系统的应用范围。与对象检测[36、34]相比,对象交互[ 48,3]和活动识别[13],场景图解析提出了独特的挑战,因为它需要推理所有这些组件之间的复杂依赖关系。
视觉场景元素具有很强的结构规则,例如,人们倾向于穿衣服,如图1所示。我们使用Visual Genome [22]数据集检查了这些结构的重复或MOTIFS,该数据集提供了来自COCO [28]的100k图像的注释场景图,包括 超过1M个对象实例和60万个关系。 我们的分析得出两个关键发现。 首先,局部图结构中有很强的规则性,这样,一旦给出了相应的对象类别,关系的分布就会高度偏斜,反之则不然。 其次,甚至更大的子图也存在结构模式。 我们发现一半以上的图像包含先前出现的图形图案。
根据我们的分析,我们引入了一个简单但功能强大的基准:给定对象检测,预测给定标签的对象对之间最频繁的关系,并在训练集中看到。 与现有技术相比,基线提高了1.4个平均召回点(相对3.6%),这表明有效的场景图模型必须同时捕获对象与对象之间的非对称依赖性以及他们的关系以及更大的上下文模式。
我们介绍了堆叠式主题网络(MOTIFNET),它是一种新的神经网络体系结构,可补充现有的场景图解析方法。 我们认为建模场景图的关键挑战在于设计一种有效的机制来对全局上下文进行编码,该机制可以直接通知局部预测变量(即对象和关系)。 尽管先前的工作使用基于图的推理在对象和关系之间的两个方向上传播信息[47、25、24],但我们的分析表明在局部预测变量中使用强独立性假设会限制全局预测的质量。 相反,我们的模型通过分段边界框预测,对象分类和关系来预测图形元素,以使所有先前阶段的全局上下文编码为预测后续阶段建立丰富的上下文,如图5所示。我们通过递归顺序架构(例如, 长短期记忆网络(LSTM)[15]。
我们的模型建立在Faster-RCNN [36]上,用于预测边界区域,并对其进行了微调并适用于Visual Genome。 跨边界区域的全局上下文将通过双向LSTM进行计算和传播,然后由另一个LSTM使用,该LSTM标记以整体上下文和所有先前标签为条件的每个边界区域。 然后,双向LSTM的另一个专门层计算并传播信息,以预测给定边界的边界区域,它们的标签以及所有其他计算的上下文。 最后,我们使用低阶外部产品将头部,尾巴和图像的全局上下文表示结合起来,对图中的所有n2 边界进行分类[19]。 该方法可以端到端地训练。
视觉基因组实验证明了我们方法的有效性。 首先,我们通过在Visual Genome上对检测器进行预培训,设置新的最新技术来更新现有工作(在评估设置中平均提高14.0绝对点)。 通过使用更新的检测器,我们的新简单基准将以前的工作改进了1.4个百分点。 最后,实验显示Stacked Motif Networks可有效地建模全局上下文,与我们的新基准相比平均提高了2.9点(相对改进为7.1%)。
2. Formal definition
一个场景图——G是图像的语义内容的结构化表示[17],他包含以下:
- a set B={b1,…,bn} of bounding boxes,bi∈R4
- a corresponding set O={o1,…,on} of objects, assigning a class label oi∈C to each bi, and
- a set R={r1,…,rm} of binary relationships between those objects
3. Scene graph analysis
在本节中,我们寻求有关场景图的结构规律性的定量见解。 特别是,(a)不同类型的关系如何与不同的对象相关联,以及(b)高阶图结构如何在不同的场景中重复出现。 这些见解激发了我们在这项工作中引入的新基线以及我们的模型,该模型可以更好地整合全局信息,如本节4所述。
3.1. Prevalent Relations in Visual Genome
为了深入了解Visual Genome场景图,我们首先将对象和关系归类为高级类型。如表1所示,主要关系是地理度量和从属,服装和零件构成实体实例的三分之一。 这种关系通常很明显,例如,房屋往往有窗户。 相反,与活动相对应的语义关系则较不频繁且不那么明显。 尽管近一半的关系类型本质上是语义的,但它们仅占关系实例的8.7%。 关系“使用”和“持有”占所有语义关系实例的32.2%。
使用我们的高级类型,我们在图2中可视化了对象类型之间的关系类型的分布。服装和部件实体几乎都是通过所有权关系唯一地联系在一起的,而家具和建筑实体几乎是通过几何关系唯一地联系在一起的。 某些实体之间的几何和空间关系是可互换的,例如,当“零件”是头部对象时,它倾向于通过几何关系(例如,骑自行车的车轮)与其他实体连接; 当“零件”是尾巴对象时,它倾向于与所有物关系(例如,自行车车轮)相连。 几乎所有的语义关系都是以人为主导的,其中大部分与人工制品,车辆和位置有关。 这种结构的可预测性以及几何关系和零件关系的普遍性表明,常识先验在生成准确的场景图中起着重要作用。
我们通过了解场景图中不同部分的身份来检查获得了多少信息,特别是考虑了给定另一个头(h),边(e)或尾(t)的标签所需的猜测次数 元素,仅使用场景图上包含的标签统计信息。较高的曲线表示给定其他值,则高度确定了元素。 该图显示关系的局部分布具有重要的结构。 通常,关系中涉及的边的标识不能很好地说明结构的其他元素,而头或尾的标识可以为彼此和边标签提供重要的信息。 信息提供的增益最小。 最终,图形给出了边缘标签的高度确定性,这取决于对象的对象对:最常见的关系在70%的情况下是正确的,而五个最常见的关系在97%的情况下是正确的标签。
3.2. Larger Motifs
场景图不仅具有局部结构,而且具有较高阶的结构。 我们通过挖掘相互之间具有高点方向相互信息的对象-关系-对象标签的组合,对场景图中的重复图案进行了分析。 迭代提取Motifs:首先,我们提取了两种组合的主题,用原子符号替换了该主题的所有实例,并根据先前确定的主题挖掘了新的主题。 如果涉及的两个元素在VisualGenome训练集中发生至少50次,并且在一起发生的可能性比分开发生的可能性高至少10倍,则选择图形元素的组合作为主题。 挖掘主题直到没有新的主题被提取出来。 图4包含我们在右侧提取的示例主题,在左侧图像中包含不同长度主题的普遍性。 许多主题对应于零件或通常分组在一起的对象的组合。 视觉基因组中超过50%的图像包含涉及至少两个对象关系-对象组合的主题,并且某些图像包含涉及多达16个元素的基序。
4. Model
我们现在介绍我们的新颖模型,即堆叠式Motif网络(MOTIFNET)。 MOTIFNET分解图G的概率(由一组边界区域 B,对象标签 O 和标记的关系 R )分为三个因素。
请注意,这种因式分解没有独立性假设。 重要地,预测对象标签可以彼此依赖,并且预测关系标签可以取决于预测对象标签。 第3节中的分析清楚地表明,捕获这些依赖关系至关重要。
边界框模型(Pr(B | I))是一个相当标准的对象检测模型,我们将在第4.1节中进行描述。
对象模型(Pr(O | B,I);第4.2节)以可能很大的一组预测边界框 B 为条件, 为此,我们将 B 线性化 (序列化) 送入LSTM然后处理以创建每个框的上下文表示的序列。
同样,当模型 relation(Pr(R | B,O,I);第4.3节)时,我们将预测的标记对象O线性化,并用另一个LSTM处理它们,以在上下文中创建每个对象的表示。 图5包含整个模型架构的可视化摘要
4.1. Bounding Boxes (and 5.1 model details detectors)
我们使用Faster R-CNN作为基础检测器,对于每个图像I,检测器会预测一组 区域提议(region pro-posals) B
请注意,由于BG是可能的标签,因此我们的模型尚未适用于任何边界框。 有关详细信息,请参见第5.1节。
与场景图解析[47,25]中的先前工作类似,我们将Faster RCNN与VGG主干作为基础目标检测器一起使用[36,40]。 我们的检测器得到的图像经过缩放,然后零填充为592x592。我们调整 边界框建议比例和尺寸比例(bounding box proposal scales and dimensionratios ),以解决Visual Genome中不同的框形状,类似于YOLO-9000 [34]。 为了控制检测器在评估不同场景图模型时的性能,我们首先在视觉基因组对象上对检测器进行了预训练。
4.2. Objects
我们基于提议区域B的集合构造 用于对象预测的上下文表示。B的元素首先构造成线性序列,然后经过双向LSTM计算得到对象上下文 C 。
C 包含 B 线性化中每个元素的最终LSTM层的隐藏状态,W 是参数矩阵用于map(映射)谓词类别的分布 I 。biLSTM允许B的所有元素提供有关潜在对象身份的信息。
context C 用于对每个提案边界区域按顺序解码标签,并以先前解码的 Label 为条件。 我们使用LSTM 为 C 中的每个上下文化表示解码类别标签。然后,我们丢弃隐藏状态,并在 relation 模型中使用对象类 o(第4.3节)。
4.3. Relations
我们使用附加的双向LSTM层构造边界区域 B 和对象 O 的上下文表示:
edge context D = [d1,…,dn] 包含最后一层的每个边界区域的状态, W2 是 o 映射到 R 的参数矩阵。
一个场景图中可能存在二种可能的关系。 对于每个可能的edge来说,…
W (h)和 W (t)将头和尾上下文投影到R(4096)
W(oi)和 W(oj)是特定于头和尾标签的偏差向量
5. Experimental Setup
在接下来的章节中,我们将解释(1)我们如何构造检测器,如何对边界区域进行排序,如何对最终的边缘分类器进行填充(5.1章节),(2)训练细节(5.2章节),(3)评估(5.3章节)。
5.1. Model Details
检测器
类似于场景图解析中的先前工作[47,25],我们使用带有VGG主干的Faster RCNN作为下层目标检测器[36,40]。 我们的检测器得到的图像经过缩放,然后零填充为592x592。我们调整边界框建议比例和尺寸比例,以解决Visual Genome中不同的框形状,类似于YOLO-9000 [34]。 为了控制评估不同场景图模型时的检测器性能,我们首先在Visual Genome对象上预训练检测器。 我们使用SGD(随机梯度下降)对3个TitanXs上的动量进行了优化,批次大小为b = 18,学习率lr = 1.8·10-2,经过mAP plateaus验证后被除以10。 对于每批,我们每个图像采样256个RoI,其中75%为背景。 检测器在视觉基因组上获得20.0 mAP(50%IoU); 相同的模型,但在COCO上进行了训练和评估,在50%IoU时获得47.7 mAP。 接下来[47],我们集成了使用检测器冻结卷积层并复制完全连接的图层的功能,从而形成了对象/边缘特征的独立分支。
为了缓解随着信息向上流动而消失的梯度问题,我们为所有LSTM添加了高速公路连接[14、41、58]。 为了另外减少参数的数量,我们遵循[14]并交替使用LSTM方向。 每个交替的高速LSTM步骤可以写成以下环绕LSTM公式的包装.
X(i)是输入,h(i)代表隐藏层,δ 代表方向(1代表当前层是偶数,-1代表奇数)。
对于MOTIFNET,我们使用2个交替的highwayLSTM层作为对象上下文,4个用于边缘上下文
RoI Ordering for LSTMs
我们考虑了几种确定边界区域的方法
- (1) LEFTRIGHT(default):我们的默认选项是按中心 x 坐标从左到右对区域进行排序:我们期望这样做可以鼓励模型预测附近对象之间的边缘,这很有用,因为出现在关系中的对象往往彼此靠近。
- (2) CONFIDENCE(置信度):另一个选择是基于来自检测器的最大非背景预测的置信度对边界区域进行排序:maxj6 = BGl(j)i,因为这可以使检测器致力于“轻松”区域,从而为“困难地区”获得更多环境信息。
-
- SIZE:在这里,我们按照大小按降序对框进行排序,可能会先预测全局场景信息
-
- RANDOM:对区域进行随机排序。
Predicate Visual Features
为了提取boxesbi,bj之间谓词的视觉特征,我们将联合盒ofbi,bjto对应的检测器特征调整为7x7x256。我们使用一个14x14x2二进制输入(每个盒子有一个通道)来建模几何关系。我们对此应用了两个卷积层,并将结果的7x7x256表示添加到检测器特征中。最后,我们应用微调的VGG全连接层来获得4096维的表示
5.2. Training
我们在地面真值框上训练MOTIFNET,并用目标来预测对象标签并预测给定地面真相对象标签的边缘标签。 对于图像,我们包括所有带注的关系(如果大于64,则进行采样),并对每个正值采样3个负关系。 如果每个有向边缘(边缘的5%)具有多个边缘标签,则对谓词进行采样。 我们的损失是谓词的交叉熵与对象上下文层预测的对象的交叉熵之和。 我们在单个GPU上使用带有动量的SGD进行优化,其中lr = 6·10−3 and b = 6。
适应检测在场景图分类中评估时使用上述协议可获得良好的结果,但在测试时突然引入非黄金投标箱的情况下,包含上下文的模型表现不佳。
为了减轻这种情况,我们使用来自探测器的嘈杂的盒子建议进行微调。 我们使用0.3 IoU的每类非最大抑制(NMS)[38]将64个建议传递给模型的对象上下文分支。 我们还会在解码给定对象上下文的过程中强制执行NMSconstraints。 然后,我们对与地面真值框相交的提案之间的关系进行采样,并使用涉及这些框的关系来微调模型,直到检测收敛。
我们还观察到,在检测过程中,我们的模型充斥着许多低质量的RoI对,因为它们之间可能存在关系,这会减慢模型的速度并降低训练的稳定性。 为了缓解这种情况,我们观察到几乎所有带注释的关系都在重叠框之间5,并将所有不重叠框的关系分类为BG。
5.3. Evaluation
我们使用公开发布的预处理数据和来自[47]的拆分,在Visual Genome上训练和评估模型,其中包含150个对象类和50个关系类,但从5000个图像的训练集中采样了一个开发集。 我们遵循三种标准的评估模式:(1)谓词分类(PREDCLS):给定框和标签的地面真值集,预测边沿标签,(2)场景图分类(SGCLS):给定基本框线,预测框标签和边线标注,和( 3)场景图检测(SGDET):预测盒子,盒子标签和边缘标签。 已知带注释的图不完整,因此使用callback @ Kmetrics评估系统。
在这三种模式下,召回都是针对关系计算的; 如果存在预测的框,则将真实的真边(bh,oh,x,bt,ot)视为“匹配”,以使biandb分别与bbt重叠7,并且对象和关系标签一致。 我们遵循先前的工作,即对于给定的头和尾边界框,系统不得输出多个边缘标签[47,29]。
5.4. Frequency Baselines
为了支持我们的发现,即对象标签高度预测边缘标签,我们另外引入了一些基于训练集统计数据的频率基准。 第一个是FREQ,它使用我们的预训练检测器来预测每个RoI的目标标签。 为了获得boxesiandj之间的谓词概率,我们查找在训练集中计算的对象之间的经验分布过度关系。8直观地,虽然该基线不看图像来计算Pr(xi→j | oi,oj),但它显示了对象标签预测的条件值 。 第二个,FREQ-OVERLAP,要求两个框相交以使该对成为有效关系。
8. Related Work
Context
已经提出了许多方法来对对象识别中的语义上下文进行建模[7]。 我们的方法与使用图形模型来结合上下文信息的许多来源来对对象共现进行建模的工作最紧密相关[33、11、26、10]。 尽管我们的方法是一种图形模型,但它的独特之处在于它分阶段进行上下文合并,从而可以从大型条件集中获得有意义的全局上下文。
行动和关系是上下文的一个特别富有成果的来源[30,50],尤其是当与之结合以创建人与对象的交互作用时[48,3]。 最近的工作表明,对象布局可以提供足够的上下文来为COCO图像加字幕[52,28]。 我们得出的大部分上下文都可以解释为常识先验,通常是通过辅助手段提取的[59,39,5,49,55]。 但是对于场景图,我们能够直接提取此类知识。
Structured Models
视觉理解中的结构化模型已被探索用于语言基础,其中语言决定了预测中涉及的图结构[32、20、42、16]。 我们的问题有所不同,因为我们必须对所有可能的图结构进行推理。 深度序列模型在字幕[4,9,45,18]和视觉问题解答[1,37,53,12,8]等任务上表现出出色的性能,包括传统上没有想到的问题 如顺序的,例如多标签分类。事实上,图形线性化在视觉和语言方面的许多问题上都取得了令人惊讶的效果,例如从物体检测[52]生成图像标题,语言解析[44],从抽象的意义图[21]生成文本。我们的工作利用了rna对长序列进行记忆的能力,以便在视觉基因组中捕获图形motiffin。最后,最近的研究将递归模型纳入检测和分割[2,35],我们的方法证明,RNNs为连续检测预测提供了有效的econtext。
Scene Graph Methods
通过结合背景语言统计数据[29,54]或尝试对场景图进行预处理[56],一些著作探索了先验的作用。 取而代之的是,我们允许我们的模型直接学习有效地使用场景图先验。此外,最近的图传播方法被应用,但是会收敛并且瓶颈穿过边缘,极大地限制了信息交换[47,25,6,23]。 另一方面,我们的方法允许通过条件来全局交换有关上下文的信息,并避免无用的边缘预测直到最后。 其他人则探索在图像区域之间创建更丰富的模型,引入新的卷积特征和新目标[31,57,25,27]。 我们的工作是相辅相成的,而是侧重于上下文的角色。 请参阅补充部分,以与以前的工作进行全面比较。
9. Conclusion
我们对视觉基因组数据集进行了分析,显示出基序是普遍存在的,因此对模型很重要。 受此分析的激励,我们引入了强大的基线,这些基线通过对这些图形内的交互进行建模,从而对现有的最新模型进行了改进,而这些建模主要是忽略了视觉提示。 我们还引入了MOTIFNET模型,该模型可捕获场景图中的高阶结构和全局交互,从而在我们本已强大的基准基础上实现了额外的重大收益。
Summary
表3中的变化量需要非常谨慎的解释。 正如预期的那样,消除图约束会显着提高报告的性能,并且谓词检测和短语检测的挑战性分别比谓词分类和场景图检测的挑战性小。 在[25]的划分中,MSDN-FREQ基线在所有评估设置上均优于MSDN,这表明在其他数据设置中基线是可靠的。 总的来说,结果表明我们的模型和基准至少在任务的不同配置方面与其他方法具有竞争力。