论文阅读：Mapping Images to Scene Graphs with Permutation-Invariant Structured Prediction-优快云博客

本文详细解读了一篇关于使用具有图置换不变性（GPI）的网络结构进行场景图生成的NIPS2018论文。文章介绍了graph labeling问题，提出了GPI的充分必要条件，并展示了如何结合注意力机制和RNN在深度结构化预测中应用。实验结果显示，虽然模型在某些方面表现一般，但探讨的理论和方法对理解场景图生成有参考价值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写在前面：

最近做scene graph方面的工作，不停地搜索论文看，看到这是NIPS2018的本来还眼前一亮，抱着敬畏的心态仔仔细细地去看，但是看了一遍又一遍，感觉只有一个，文章写得又臭又长、不知所云、也没觉得有啥价值，也许是自己道行不够，看不懂文章的高明之处，但还是想写下看这篇文章的感受，如果有也做sg方向想看这篇文章的同学，也许可以让你们避免浪费时间阅读这篇“顶会文章”。

文章NIPS2018

paper讨论了一种具有图置换不变性（graph-permutation invariant，GPI）的网络结构，给出了其充分必要条件，并以scene graph generation为例解释了如何在深度结构化预测中使用这样的结构。
paper先介绍了graph labeling问题，即给定一个图（V,E），其中V为节点特征的集合[z1,…,zn]，E为边特征的集合[z_1,2 , … ,z_i,j, … ,z_n,n-1]，希望找到一个函数F：（V,E）–>Y，Y则是label的集合[y_1,…,y_n]。用通俗的话说就是，给定以点和边特征表示的图，函数F可以得到每个节点的label。一个很自然的对F的要求是，不管输入的图的节点顺序如何，都应该得到相同的labeling结果，这就是GPI。paper说不具备GPI的结构，在训练时会浪费更多的capacity。
在这里插入图片描述
paper给出一个定理，假设F是一个graph labeling函数，那么F是GPI的充要条件是存在函数α，ρ，φ对k=1,…,n满足：