【ECCV2020】Improving One-stage Visual Grounding by Recursive Sub-query Construction
- 发现问题:直接用bert的embedding向量、或者LSTM的隐层状态会忽略query的信息,尤其在query比较长、复杂的情况下
- 解决思路:提出一个递归sub-query构造框架,在图像和query中进行多次推理,从而减少推理混淆的情况
- 效果:分别在ReferItGame, RefCOCO, RefCOCO+, RefCOCOg四个数据集上提升5%; 4.5%; 7.5%; 12.8%
Introduction
- visual grounding就是根据一句话将图片上的对应区域画出来。
- 双阶段:
- 提取图片的proposal
- 根据这些proposal和query的相似度进行排序
- 单阶段:直接将两个信息融合去预测框
双阶段的方法也学习了类似的对query建模的方法,MattNet
将query分解为主语,位置和关系短语;NMTREE
使用依赖关系树解析器解析query,并将每个树节点与图片区域链接起来;DGA
通过文本自注意力来解析query,并通过动态图注意力将文本和区域连接在一起。(都需要proposal)
Approach
def diverse_loss(score_list, word_mask, m=-1, coverage_reg=True):
score_matrix = torch.stack([mask_softmax(score,word_mask) for score in score_list]