论文阅读:Deep Variation-structured Reinforcement Learning for Visual Relationship and AttributeDetection

本文提出了一种使用深度强化学习(DQN)进行场景图生成的方法,逐步构建对象间的属性和关系。通过分析三种关系检测策略,强调了强化学习在逐步生成场景图中的挑战与优势。模型的输入包括图像特征、主题和客体特征,以及历史预测信息,输出分为三个分支,分别处理属性、关系和下个客体类别。通过定向语义动作图(DSAG)来减小动作空间,提高准确性。实验表明,历史决策信息和模糊对象挖掘对性能提升显著。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

VRL(CVPR 2017)

文章

  这篇文章使用强化学习来做scene graph的生成,这种方式是逐渐生成式的,每一步会生成一对sub-obj的关系(还有sub的属性),于是场景图就会像树一样,渐渐成型。这样一来,我所了解的目前关系检测的思路一共有三种:

1. 找到连接1,判断关系1–>找到连接2,判断关系2–>……–>找到连接n,判断关系n
2. 找到所有可能连接à依次判断每个连接的关系类别
3. 直接判断所有两两组合的关系(本方法中,无连接也是关系的一种)

  关系检测由于是object的两两组合,所以有个问题是计算量会特别大,如果是n个物体,就需要判断n*(n-1)对关系,所以方法2会先用比较简单的方法剔除掉一些不可能的关系对,再判断剩下的所有关系对。而最初的关系检测方法,就是方法3了,直接暴力地判断每一对物体的关系,并且将无关系作为background类别加入关系中。我觉得方法2还是有道理的,我们完全可以根据训练集中的统计信息剔除掉不可能的关系对,避免不必要的计算,而且保证不降低性能。之前也想过能不能像方法1一样,一步一步地生成关系,但没有想出来。。。结果翻到这篇文章发现别人也有一样的想法,不过看完之后感觉有点为了创新而创新的味道,文章没有说为什么使用这种一步一步的方式好

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值