背景
研究机构:厦门大学纪荣嵘组
论文接收于2020ACM MM
摘要
本文将NAS应用于VQA问题中,提出一种k-Armed Bandit based NAS(KAB-NAS)方法,简单来说即处理多模态特征的L个层由single-shot的方法搜索得出,每一层都提供K个候选算子而得名。此外,作者提出一个Automatic Graph Attention Network (AGAN)模块,通过三种图结构以及self-attention机制来学习图上的信息传播,是对传统的GCN的改进。
NAS部分(非本篇的重点)

AGAN 自动图注意力网络

几个符号:假定进入AGAN的特征表示为 图像特征FI∈RK×dF_I\in \R ^{K\times d}FI∈RK×d ,问题特征FQ∈RT×dF_Q\in\R^{T\times d}FQ∈RT×d,故构建的multi-modal Graph G=(V,E)G=(V,E)G=(V,E),V是所有的节点构成的集合(包含image regions与 words of question)。E是节点之间构成的边(貌似没有提这个边矩阵怎么计算得到?)。
图G中所有的顶点特征即 Fg∈R(K+T)×dF_g\in\R^{(K+T)\times d}Fg∈R(K+T)×d,假设使用了图卷积的层数为NNN,每一层操作表示为G(.),来更新顶点的特征表示。那么第ttt层的特征Fg(t)F_{g}^{(t)}Fg(t)可形式化为:(作者在这里还利用了一下short cut机制)

更具体地,

作者讲到AAA是基于边集E得到的邻接矩阵(值都是binary的),DDD是节点的度矩阵(只有主对角线上有值,其余位置是0),σ(.)\sigma(.)σ(.)是激活函数,Wg(t)W_g^{(t)}Wg(t)是第t层图卷积的可学习参数。
一直到这里,可以看出仍然是常规的GCN网络。D−1AD^{-1}AD−1A视为拉普拉斯矩阵。这种常规的GCN的局限性前面的博客也提到过:每个顶点视其各个邻居为同等优先级,无法为不同的邻居分配不同的权重。也即D−1AFg(t−1)D^{-1}AF_g^{(t-1)}D−1AFg(t−1)相当于对每个顶点,将来自其邻居节点的特征进行平均加权。 然而,这种平均的聚合并不能反映VQA图中节点之间的相互关系。
作者的改进思路:利用self-attention机制,将邻接矩阵AAA改造成一个加权处理的新邻接矩阵AwA_wAw
改造方式如下

其中Wi,WjW_i,W_jWi,Wj是可学习矩阵。
同样地,受transformer的启发,这里令图卷积的每一层输出类似multi-head的效果,利用multi-head 多套参数的输出 concate后作为第ttt个 graph layer的输出。
即将Fg(t−1)Wi和WjFg(t−1)F_g^{(t-1)}W_i和W_jF_g^{(t-1)}Fg(t−1)Wi和WjFg(t−1)结果划分成K份(相当于要使用K个heads),这样在每个graph layer上得到K个加权邻接矩阵[Aw0,Aw1,...,Awk][A_w^0,A_w^1,...,A_w^k][Aw0,Aw1,...,Awk],最终,将这K个heads的输出concatenate。所以,最终GaganG_{agan}Gagan的形式表示如下

||代表concatenate操作。同时,作者在每一个graph layer最后还使用了FFN。
说完了self-attention结构,再来说说上文提到的三种图结构。三种结构是指使用了不同形式的邻接矩阵A,以确定不同的图上信息传播方式。
Dense graph structure 密集图
邻接矩阵A中的值全设为1。令图上各个节点间均有相关关系。
Co-graph structure 协同图
用于捕获不同模态间节点的联系。

Separate graph structure 稀疏图
用于捕捉模态内各节点的联系。邻接矩阵A中的内容为

实验结果
每个graph layer该使用上面提到的具体哪个图结构,由NAS搜索得出。
NAS搜索空间中的候选算子

KAB-NAS与手工设计网络结构对比

结论
在本文中,我们提出了一种新颖而有效的VQA网络架构搜索(NAS)算法,称为 (k-Armed Bandit based NAS),该算法将每一层的设计视为一个K选一问题,并通过大量的一次性采样来估计每个候选设计。为了建立有效的搜索空间,我们还提出了一种具有三种新的图结构的自动图注意网络,它可以用来决定信息在统一正向结构中的传播方式。
KAB-NAS:图学习在视觉问答中的应用
本文提出KAB-NAS方法,结合多模态特征和图学习解决VQA问题。通过自动图注意力网络(AGAN),利用三种图结构(密集、协同、稀疏)改进传统GCN,提升信息传播效率。实验表明,KAB-NAS在VQA任务上优于手工设计的网络结构。
6602

被折叠的 条评论
为什么被折叠?



