图学习(二)K-armed Bandit based Multi-modal Network Architecture Search for Visual Question Answering

KAB-NAS:图学习在视觉问答中的应用
本文提出KAB-NAS方法,结合多模态特征和图学习解决VQA问题。通过自动图注意力网络(AGAN),利用三种图结构(密集、协同、稀疏)改进传统GCN,提升信息传播效率。实验表明,KAB-NAS在VQA任务上优于手工设计的网络结构。

背景

研究机构:厦门大学纪荣嵘组
论文接收于2020ACM MM

摘要

本文将NAS应用于VQA问题中,提出一种k-Armed Bandit based NAS(KAB-NAS)方法,简单来说即处理多模态特征的L个层由single-shot的方法搜索得出,每一层都提供K个候选算子而得名。此外,作者提出一个Automatic Graph Attention Network (AGAN)模块,通过三种图结构以及self-attention机制来学习图上的信息传播,是对传统的GCN的改进。

NAS部分(非本篇的重点)

在这里插入图片描述

AGAN 自动图注意力网络


几个符号:假定进入AGAN的特征表示为 图像特征FI∈RK×dF_I\in \R ^{K\times d}FIRK×d ,问题特征FQ∈RT×dF_Q\in\R^{T\times d}FQRT×d,故构建的multi-modal Graph G=(V,E)G=(V,E)G=(V,E),V是所有的节点构成的集合(包含image regions与 words of question)。E是节点之间构成的边(貌似没有提这个边矩阵怎么计算得到?)。
图G中所有的顶点特征即 Fg∈R(K+T)×dF_g\in\R^{(K+T)\times d}FgR(K+T)×d,假设使用了图卷积的层数为NNN,每一层操作表示为G(.),来更新顶点的特征表示。那么第ttt层的特征Fg(t)F_{g}^{(t)}Fg(t)可形式化为:(作者在这里还利用了一下short cut机制
在这里插入图片描述
更具体地,
在这里插入图片描述
作者讲到AAA是基于边集E得到的邻接矩阵(值都是binary的),DDD是节点的度矩阵(只有主对角线上有值,其余位置是0),σ(.)\sigma(.)σ(.)是激活函数,Wg(t)W_g^{(t)}Wg(t)是第t层图卷积的可学习参数。
一直到这里,可以看出仍然是常规的GCN网络D−1AD^{-1}AD1A视为拉普拉斯矩阵。这种常规的GCN的局限性前面的博客也提到过:每个顶点视其各个邻居为同等优先级,无法为不同的邻居分配不同的权重。也即D−1AFg(t−1)D^{-1}AF_g^{(t-1)}D1AFg(t1)相当于对每个顶点,将来自其邻居节点的特征进行平均加权。 然而,这种平均的聚合并不能反映VQA图中节点之间的相互关系。

作者的改进思路:利用self-attention机制,将邻接矩阵AAA改造成一个加权处理的新邻接矩阵AwA_wAw
改造方式如下
在这里插入图片描述
其中Wi,WjW_i,W_jWiWj是可学习矩阵。
同样地,受transformer的启发,这里令图卷积的每一层输出类似multi-head的效果,利用multi-head 多套参数的输出 concate后作为第ttt个 graph layer的输出。
即将Fg(t−1)Wi和WjFg(t−1)F_g^{(t-1)}W_i和W_jF_g^{(t-1)}Fg(t1)WiWjFg(t1)结果划分成K份(相当于要使用K个heads),这样在每个graph layer上得到K个加权邻接矩阵[Aw0,Aw1,...,Awk][A_w^0,A_w^1,...,A_w^k][Aw0,Aw1,...,Awk],最终,将这K个heads的输出concatenate。所以,最终GaganG_{agan}Gagan的形式表示如下
在这里插入图片描述
||代表concatenate操作。同时,作者在每一个graph layer最后还使用了FFN。
说完了self-attention结构,再来说说上文提到的三种图结构。三种结构是指使用了不同形式的邻接矩阵A以确定不同的图上信息传播方式。

Dense graph structure 密集图

邻接矩阵A中的值全设为1。令图上各个节点间均有相关关系。

Co-graph structure 协同图

用于捕获不同模态间节点的联系。
在这里插入图片描述

Separate graph structure 稀疏图

用于捕捉模态内各节点的联系。邻接矩阵A中的内容为
在这里插入图片描述

实验结果

每个graph layer该使用上面提到的具体哪个图结构,由NAS搜索得出。
NAS搜索空间中的候选算子
在这里插入图片描述
KAB-NAS与手工设计网络结构对比
在这里插入图片描述

结论

在本文中,我们提出了一种新颖而有效的VQA网络架构搜索(NAS)算法,称为 (k-Armed Bandit based NAS),该算法将每一层的设计视为一个K选一问题,并通过大量的一次性采样来估计每个候选设计。为了建立有效的搜索空间,我们还提出了一种具有三种新的图结构的自动图注意网络,它可以用来决定信息在统一正向结构中的传播方式。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值