【深度学习】【ECCV2020】Improving One-stage Visual Grounding by Recursive Sub-query Construction

针对视觉定位问题,文章提出了一个递归子查询构造框架,以解决长复杂query时信息丢失的问题。该框架在图像和query间进行多次推理,减少推理混淆,从而在ReferItGame, RefCOCO, RefCOCO+, RefCOCOg数据集上分别提升了5%, 4.5%, 7.5%, 12.8%的性能。" 116737034,8331821,PyTorch中Tensor的维度变换与存储解析,"['PyTorch', '深度学习', '张量操作']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【ECCV2020】Improving One-stage Visual Grounding by Recursive Sub-query Construction

代码链接

  • 发现问题:直接用bert的embedding向量、或者LSTM的隐层状态会忽略query的信息,尤其在query比较长、复杂的情况下
  • 解决思路:提出一个递归sub-query构造框架,在图像和query中进行多次推理,从而减少推理混淆的情况
  • 效果:分别在ReferItGame, RefCOCO, RefCOCO+, RefCOCOg四个数据集上提升5%; 4.5%; 7.5%; 12.8%

Introduction

  • visual grounding就是根据一句话将图片上的对应区域画出来。
  • 双阶段:
  1. 提取图片的proposal
  2. 根据这些proposal和query的相似度进行排序
  • 单阶段:直接将两个信息融合去预测框

双阶段的方法也学习了类似的对query建模的方法,MattNet将query分解为主语,位置和关系短语;NMTREE使用依赖关系树解析器解析query,并将每个树节点与图片区域链接起来;DGA通过文本自注意力来解析query,并通过动态图注意力将文本和区域连接在一起。(都需要proposal)

Approach

在这里插入图片描述

在这里插入图片描述

def diverse_loss(score_list, word_mask, m=-1, coverage_reg=True):
    score_matrix = torch.stack([mask_softmax(score,word_mask) for score in score_list]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值