论文阅读:Mapping Images to Scene Graphs with Permutation-Invariant Structured Prediction

本文详细解读了一篇关于使用具有图置换不变性(GPI)的网络结构进行场景图生成的NIPS2018论文。文章介绍了graph labeling问题,提出了GPI的充分必要条件,并展示了如何结合注意力机制和RNN在深度结构化预测中应用。实验结果显示,虽然模型在某些方面表现一般,但探讨的理论和方法对理解场景图生成有参考价值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

写在前面:

   最近做scene graph方面的工作,不停地搜索论文看,看到这是NIPS2018的本来还眼前一亮,抱着敬畏的心态仔仔细细地去看,但是看了一遍又一遍,感觉只有一个,文章写得又臭又长、不知所云、也没觉得有啥价值,也许是自己道行不够,看不懂文章的高明之处,但还是想写下看这篇文章的感受,如果有也做sg方向想看这篇文章的同学,也许可以让你们避免浪费时间阅读这篇“顶会文章”。

文章NIPS2018

   paper讨论了一种具有图置换不变性(graph-permutation invariant,GPI)的网络结构,给出了其充分必要条件,并以scene graph generation为例解释了如何在深度结构化预测中使用这样的结构。
   paper先介绍了graph labeling问题,即给定一个图(V,E),其中V为节点特征的集合[z1,…,zn],E为边特征的集合[z_1,2 , … ,z_i,j, … ,z_n,n-1],希望找到一个函数F:(V,E)–>Y,Y则是label的集合[y_1,…,y_n]。用通俗的话说就是,给定以点和边特征表示的图,函数F可以得到每个节点的label。一个很自然的对F的要求是,不管输入的图的节点顺序如何,都应该得到相同的labeling结果,这就是GPI。paper说不具备GPI的结构,在训练时会浪费更多的capacity。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值