MUREL: 多模态关系建模

MuRel论文介绍了一种新颖的机器学习模型,通过对象边界框构建复杂连接图,MuRelCell实现问题与图像区域的交互建模,无需显式注意机制。论文探讨了关系表示、成对交互和迭代过程,以及与注意力机制的对比。实验结果展示了模型在不同数据集上的性能。

MUREL

MuRel网络是一个端到端的机器学习模型,用于回答关于图像的问题。它依赖于从图像中提取的对象边界盒来构建一个复杂连接图,其中每个节点对应于一个对象或区域。该MuRel网络包含一个MuRel cell,在该cell上迭代以融合问题表示和局部区域特征,逐步细化可视化和问题交互。最后,在对局部表示进行全局聚合之后,它使用双线性模型回答了这个问题。有趣的是,MuRel网络并没有包含一个明确的注意机制,而这通常是最先进的模型的核心。它对场景的丰富矢量表示甚至可以用于可视化每一步的推理过程。

1. 论文的主要贡献

  1. 提出了MuRel概念(多模态关系),引入了MuRel Cell (这是一个自动推理原语,能够表示问题和图像区域之间丰富的交互信息,它基于一个向量表示,能对区域之间的关系进行建模)包含(通过双线性模型融合来表示问题向量q和区域向量si之间的丰富的细粒度交互(图1左框),对成对结合区域关系进行建模的结构(提供每个区域的上下文感知嵌入xi)(图1右框)),si^ 为si的残差函数是一个cell的输出。

MuRel cell是一种新型的推理模块,它对问题和图像区域之间的交互进行建模。它的成对关系组件通过在建模中考虑节点的上下文,丰富了每个节点的多模态表示

  1. MuRel网络,迭代多个MuRel Cell,逐渐细化图像和问题的交互。(图2)

在经典的注意力模型中,图像区域与问题特征s和q的融合只学习对一个区域是否相关进行编码,在MuRel单元中,局部多模态信息以更丰富的形式mi进行表示,它可以对模态间更复杂的联系进行编码。

                                             图1

在这里插入图片描述

                                                   图2

在这里插入图片描述

2. 论文中涉及的公式

  1. MuRel中融合公式:融合公式采用的双线性融合,参数分解采用Tucker张量分解。

在这里插入图片描述
mim_imi中的每一维m可如下表示:
m=∑s,qws,q,msisqqm = \sum_{s,q} w^{s,q,m} s^s_iq^qm=s,qws,q,msisqq

2.成对交互建模:在回答模型类型的问题,可能有必要对多个交互在一起的对象进行推理,也就是我们希望每一个表示都了解其周围的空间和语义环境,因此我们选择了成对关系建模,MuRel中,邻域由每个区域组成,并合并空间和语义表示来构建关系向量。我们计算每个区域的上下文向量,包含所有进入i的成对链接rijr_{ij}rij(矢量, 包含有关两个区域的内容以及相对位置的信息),我们将其定义为如下公式

在这里插入图片描述

在这里插入图片描述
公式3中通过B(bi,bj;Θb)B(b_i,b_j;\Theta_b)B(bi,bj;Θb)的运算,(bi=[x,y,w,h]b_i = [x,y,w,h]bi=[x,y,w,h]是每个区域的空间坐标,(x,y)表四框左上,w,h分别表示框宽高,x,w由图像宽标准化,y,h由图像高标准化。)
Cell可以自由学习空间概念,例如顶部,左,右等。在并行情况下,B(.,.;Θs)B(.,.;\Theta_s)B(.,.;Θs)编码多模态向量(si,sjs_i,s_jsi,sj)之间的相关性,对应于以问题表示为条件的语义视觉概念,通过总结空间和语义的融合,网络可学习高级关系概念,例如:wear,hold等

文本表示 eie_iei包含它的邻居提供的rijr_{ij}rij信息,再以加法的形式更新,mim_imi
在这里插入图片描述

最后,MuRel cell的输出将作为其输入的残差函数进行计算,每个视觉特征sis_isi更新为:

在这里插入图片描述

综上所述:图1的总体操作公式可如下表示。
在这里插入图片描述

  1. MuRel 网络公式

在这里插入图片描述

3. 实验结果

与注意力机制比较
在这里插入图片描述
消融研究
在这里插入图片描述
探究最佳迭代次数、
在这里插入图片描述

不同模型在不同数据集的比较
在这里插入图片描述

在这里插入图片描述

模型实例
在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值