论文阅读：Scene Dynamics: Counterfactual Critic Multi-Agent Training for Scene Graph Generation-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_37014750/article/details/85102456

本文探讨如何通过multi-agent policy gradient方法改进场景图生成，关注hub node的识别，以提升scene graph的质量。文章提出counterfactual critic多智能体训练策略，通过最大化graph-level指标如Recall和SPICE，优化物体检测和关系识别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Scene Dynamics

文章
我之前一直想着要提高scene graph的质量，最重要的应该是提高对关系的识别能力，也就是提高predcls任务的效果，但是本文提醒了我，把对目标的识别和和关系的识别结合起来，也能有效提高scene graph的质量。

本文认为，目前的关系检测算法大都没有将目标的检测放在graph的层次上思考，message passing算是一个，但还是没有充分利用graph的特性。对于目标的识别，现有的算法都是使用每个object的crossentropy之和作为损失函数，但问题在于这样是认为每个object的重要性是一样的，其实不是的。比如我们看上图b，将bike错误地判断为man会导致之后的4个关系的识别都出错，而将tree错判为man，只会影响1个关系，作者将图中bike这样对sg影响大的object叫做hub node，而对于tree那样的叫做non-hub node。
为了应对上面所说的这种情况，我的一个直接想法是在训练集中对每种物体的关系进行统计，找到那些hub node，然后构建损失函数的时候，给它们更大的权重。但本文不是这样简单地的做的，文章采用graph-level的metric来对检测结果进行评价，如Recall和SPICE，