论文阅读：Pixels to Graphs by Associative Embedding

最新推荐文章于 2022-11-17 09:54:24 发布

Kivee123

最新推荐文章于 2022-11-17 09:54:24 发布

阅读量2k

点赞数 3

CC 4.0 BY-SA版权

文章标签： scene understand

本文链接：https://blog.youkuaiyun.com/qq_37014750/article/details/83624392

本文介绍了一种通过关联嵌入从原始像素信息中直接获取场景图的物体和关系的方法，避免了传统关系检测的两步流程。论文提出的方法包括检测图元素并利用关联嵌入连接元素，解决重叠检测的挑战，以及在实验中展示在Visual Genome数据集上的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Pixels2Graph（NIPS 2017）

文章
insight：现在做关系检测往往都是分为物体检测和关系识别两个步骤，可是这样的话，在第二步的时候往往会损失很多信息，本文希望从原图的像素信息一步同时得到物体和关系。
其实本文的关键是associative embedding，今年ECCV的一篇CornerNet也是利用了这种想法，给目标检测带了新思路，我感觉应该也有这篇文章的灵感。
本文的方法其实也是两步，首先检测最后要得到的场景图的每个元素，包括节点和边，然后对这些元素进行组合。第一步其实就是检测物体以及关系在图上的bbox，第二步就是决定每条边应该和哪两个点相连。下面详细介绍一下具体的算法。
在这里插入图片描述
Detecting graph elements：
最终场景图的每个元素（点和边）在原图片上都有一个对应的位置，目标检测得到的bounding box的中心坐标就是场景图中点对应的位置，边的位置则是其两个关联的bounding box的中心坐标的均值。利用这样的思路，我们可以使用一个神经网络能够产生一个高分辨率的特征图，特征图上每个像素与原图像素一一对应。而每个位置的vector则表示这个位置是否存在一个节点或者边，如果是存在的就用该vector来预测这个元素的属性。
卷积神经网络可以用来处理图像并产生一个hwf的特征tensor。所有对确定某个位置的点和边有必要的信息都被encode到了一个长度为f的vector里了。但是有个问题，多个边或者点可能在相同的位置，本论文也考虑了相应的对策。
特征tensor的产生使用堆叠的hour

最低0.47元/天解锁文章

200万优质内容无限畅学