图网络模型原理详解（Graph Network）

最新推荐文章于 2025-07-04 12:08:04 发布

置顶

Chihk-Anchor

最新推荐文章于 2025-07-04 12:08:04 发布

阅读量4.3w

点赞数 26

CC 4.0 BY-SA版权

分类专栏： NLP 问答系统神经网络模型文章标签：图网络 Graph Network

本文链接：https://blog.youkuaiyun.com/weixin_40871455/article/details/86515934

《Relational inductive biases, deep learning, and graph networks》

这篇论文包含了一部分新研究、一部分回顾和部分统一结论，这篇文章涉及到的很多知识面，涉及到联结主义、行为主义、符号主义，其本身的模型并不难，但是要理解其提出来的背景及相关知识联系，和其研究的深层含义就需要慢慢品读其中的参考文献了。

这篇论文是DeepMind联合谷歌大脑、MIT等机构27位作者发表重磅论文，提出“图网络”（Graph network），将端到端学习与归纳推理相结合，有望解决深度学习无法进行关系推理的问题。

作者认为组合泛化是人工智能实现与人类相似能力的首要任务，而结构化表示和计算是实现这一目标的关键，实现这个目标的关键是结构化的表示数据和计算（structured representation）。本文讨论图网络如何支持关系推理和组合泛化，为更复杂的、可解释的和灵活的推理模式奠定基础。

人类智能的一个关键特征是“无限使用有限方法”的能力，也就是说我们一旦掌握了一种方法，我们可以无限次将这种方法应用到对应的场景中解决对应的问题，比如：我们学习说话并不是将世界上所有的句子都学一遍，我们学习的是单个的单词还有语法，然后我们可以将单词经过特定的语法组织，组成很多很多句子。这反映了组合归纳的原则，即从已知的构建块构造新的推论、预测和行为。人类的组合概括能力主要取决于我们表达结构和推理关系的认知机制。我们将复杂系统表示为实体及其相互作用的组合，比如判断一堆不规则的石头堆砌起来是否稳定。人类的认知可以通过层层抽象来去掉事物间细节上的差异，保留下最一般的共同点；所以我们可以通过组合已有的技能和经验来解决新的问题（例如去一个新地方可以将“坐飞机”、"去圣迭戈"、“吃饭”、“在一家印度餐馆”这几个已有的概念组合起来得以实现。）；人类可以将两个关系结构（指的就是graph这种表示物体和物体间关系的数据）放在一起进行比较，然后根据对其中一个的知识，来对另一个进行推断。

当前的深度学习方法都强调end-to-end，端到端的学习方式，而当数据量和计算资源没有现在这么丰富的时候，人们都是采取的hand-engineering的方式，手动设计各种模型。作者认为在这两种模型之间的选择不应该走极端，只要一个而不要另一个，应该是end-to-end和hand-engineering相结合来设计模型。

Relational reasoning

这里我们将 "结构" 定义为一堆已知的构件快的组合，“结构化表示”主要关注组合（即元素的排列），“结构化计算” 作用对象为元素及元素组成的总体，"关系推理" 涉及操纵实体和关系的结构化表示，并使用规则去组合实体和关系。概念如下所示：

实体是具有属性的元素，例如具有大小和质量的物理对象。

关系是实体之间的属性。这里我们关注实体之间的配对关系。

规则是一种函数，它将实体和关系映射到其他实体和关系，这里我们采用一个或两个参数的规则，并返回一元属性值。

Relational inductive biases

首先需要解释一下什么是归纳偏置（Inductive biases）

inductive bias，这个概念顾名思义，就是在归纳推理（induct）的时候的偏向（bias），也就是在模型学习的时候，参数有倾向性的调节成某种状态，模型有倾向性的学习成某一类样子。

学习是通过观察和与世界互动来理解有用知识的过程，这就涉及到从一个有很多解决方案的空间中寻找一个最优的能很好对数据做出解释的解决方案，当我们采用了某个解决方案我们的回报也是最大的。可能在很多场景下，有很多解决方案的效果是相同的，但是 Inductive Bias 会让学习算法不依赖观测数据优先考虑一个最最最优的方法，因为他有偏向啊。在贝叶斯模型中，归纳偏置表现为先验分布模型的选择和参数的选择，在另外一些场景中，偏置项可能表现为防止过拟合的正则化项，或者这个偏置项的存在纯粹就是因为模型本身的结构就是这样要求的。归纳偏置通常牺牲灵活性以提高样本的复杂性。理想情况下，归纳偏置既可以改善对解决方案的搜索，又不会显着降低性能，并有助于找到以理想方式推广的解决方案；然而，不合适的归纳偏置项会引入太强的约束可能导致最终的效果并不是最优的。

在深度学习中，实体和关系通常表示为分布式表示，规则可以当做是神经网络函数逼近器; 然而，实体，关系和规则的确切形式因架构而异。也就是说不同的网络架构对应到的实体和关系是不同的，CNN对应着自己的实体和关系，RNN同样也对应着他自己的实体和关系，如下图所示：

每种不同的网络模型对应的实体、关系、偏置项都不同，例如RNN中实体代表着时间步，关系代表着序列

标准深度学习模型中的关系归纳偏置

这里需要说relational inductive biases有别于inductive biases，什么区别我们来看模型

全连接层：

输入的是一个向量，输出的是每个向量元素与权重向量点乘之后加上偏置项，经过一个激活函数，例如（ReLU）。在这个网络中，实体是网络中的单元，关系是各个单元连接的权重参数（层i中的所有单元连接到层j中的所有单元），并且规则是由权重和偏差组成的一系列函数来表示。整个模型中没有共享参数，信息之间也没有隔离，每一个单元都可以参与决定任何一个输出单元，和输出是没有关系的。因此，全连接层的relational inductive biases是很弱的，也就是模型并没有在归纳推断的时候偏向于哪个relation，而是一视同仁，每个单元都连接到后一层的单元节点，自由度非常大。

卷积层：

CNN中的实体还是单元，或者说是网格元素（例如image中的pixel），relation更加稀疏。相比于全连接网络，这里加入的relational inductive biases是局域性和平移不变性，局域性指的就是卷积核是大小固定的，就那么大，只抓取那么大的区域的信息，远处的信息不考虑；平移不变性指的是rule的复用，即卷积核到哪里都是一样的，同一个卷积核在各个地方进行卷积。到这我们可以看到，rule在深度学习的模型中的含义是如何将某一层的网络信息传递到下一层，而且是具体到权重的值是多少，后文还提到一句话“learning algorithm which find rules for computing their interactions”，也就是说，算法指的是计算框架，例如卷积操作之类的，而rule是学习到的具体的以什么权重进行卷积操作。

循环神经网络：

RNN中的entity是每一步的输入和hidden state；relation是每一步的hidden state对前一步hidden state和当前输入的依赖。这里的rule是用hidden state和输入更新hidden state的方式。rule是在每一步都复用的，也就是说这里存在一个relational inductive biases是temporal invariance，时间不变性。