GNN - Task2: 消息传递范式
消息传递范式我觉得是节点表征(Node Representation)的一种形式,它是一种聚合邻接节点信息来更新中心节点信息的方法。你可以想象成就是有一条链上,链上的节点在一个个挨着更新的感觉。
消息传递范式的传递公示中有卷积算子,所以用张量的形式(神经网络)实现了图的更新学习,消息传递范式因为简单、强大的特性,于是被人们广泛地使用。
这个任务我们会学习这几个内容:
- 剖析
MessagePassing
基类 - 学习继承
MessagePassing
基类的GCNConv
类 - 覆写
MessagePassing
基类的message(),aggreate(),message_and_aggreate()
和update()
一、消息传递范式介绍
- 图中黄色方框部分展示的是一次邻居节点信息传递到中心节点的过程:B节点的邻接节点(A,C)的信息经过变换后聚合到B节点,接着B节点信息与邻居节点聚合信息一起经过变换得到B节点的新的节点信息。同时,分别如红色和绿色方框部分所示,遵循同样的过程,C、D节点的信息也被更新。实际上,同样的过程在所有节点上都进行了一遍,所有节点的信息都更新了一遍。
- 这样的“邻居节点信息传递到中心节点的过程”会进行多次。如图中蓝色方框部分所示,A节点的邻接节点(B,C,D)的已经发生过一次更新的节点信息,经过变换、聚合、再变换产生了A节点第二次更新的节点信息。多次更新后的节点信息就作为节点表征。
- 消息传递图神经网络遵循上述的“聚合邻接节点信息来更新中心节点信息的过程”,来生成节点表征。用
x
i
(
k
−
1
)
∈
R
F
\mathbf{x}^{(k-1)}_i\in\mathbb{R}^F
xi(k−1)∈RF表示
(
k
−
1
)
(k-1)
(k−1)层中节点
i
i
i的节点表征,
e
j
,
i
∈
R
D
\mathbf{e}_{j,i} \in \mathbb{R}^D
ej,i∈RD 表示从节点
j
j
j到节点
i
i
i的边的属性,消息传递图神经网络可以描述为
x i ( k ) = γ ( k ) ( x i ( k − 1 ) , □ j ∈ N ( i ) ϕ ( k ) ( x i ( k − 1 ) , x j ( k − 1 ) , e j , i ) ) , \mathbf{x}_i^{(k)} = \gamma^{(k)} \left( \mathbf{x}_i^{(k-1)}, \square_{j \in \mathcal{N}(i)} \, \phi^{(k)}\left(\mathbf{x}_i^{(k-1)}, \mathbf{x}_j^{(k-1)},\mathbf{e}_{j,i}\right) \right), xi(k)=γ(k)(xi(k−1),□j∈N(i)ϕ(k)(xi(k−1),xj(k−1),ej,i)),
其中 □ \square □表示可微分的、具有排列不变性(函数输出结果与输入参数的排列无关)的函数。具有排列不变性的函数有,和函数、均值函数和最大值函数。 γ \gamma γ和 ϕ \phi ϕ表示可微分的函数,如MLPs(多层感知器)。
二、MessagePassing
基类初步分析
Pytorch Geometric(PyG)提供了MessagePassing
基类,它封装了“消息传递”的运行流程。通过继承MessagePassing
基类,可以方便地构造消息传递图神经网络。构造一个最简单的消息传递图神经网络类,我们只需定义**message()
方法(
ϕ
\phi
ϕ)、update()
方法(
γ
\gamma
γ),以及使用的消息聚合方案**(aggr="add"
、aggr="mean"
或aggr="max"
)。这一切是在以下方法的帮助下完成的:
MessagePassing(aggr="add", flow="source_to_target", node_dim=-2)
(对象初始化方法):aggr
:定义要使用的聚合方案(“add”、"mean "或 “max”);flow
:定义消息传递的流向("source_to_target "或 “target_to_source”);node_dim
:定义沿着哪个维度传播,默认值为-2
,也就是节点表征张量(Tensor)的哪一个维度是节点维度。节点表征张量x
形状为[num_nodes, num_features]
,其第0维度(也是第-2维度)是节点维度,其第1维度(也是第-1维度)是节点表征维度,所以我们可以设置node_dim=-2
。- 注:
MessagePassing(……)
等同于MessagePassing.__init__(……)
MessagePassing.propagate(edge_index, size=None, **kwargs)
:- 开始传递消息的起始调用,在此方法中
message
、update
等方法被调用。 - 它以
edge_index
(边的端点的索引)和flow
(消息的流向)以及一些额外的数据为参数。 - 请注意,
propagate()
不仅限于基于形状为[N, N]
的对称邻接矩阵进行“消息传递过程”。基于非对称的邻接矩阵进行消息传递(当图为二部图时),需要传递参数size=(N, M)
。 - 如果设置
size=None
,则认为邻接矩阵是对称的。
- 开始传递消息的起始调用,在此方法中
MessagePassing.message(...)
:- 首先确定要给节点
i
i
i传递消息的边的集合:
- 如果
flow="source_to_target"
,则是 ( j , i ) ∈ E (j,i) \in \mathcal{E} (j,i)∈E的边的集合; - 如果
flow="target_to_source"
,则是 ( i , j ) ∈ E (i,j) \in \mathcal{E} (i,j)∈E的边的集合。
- 如果
- 接着为各条边创建要传递给节点 i i i的消息,即实现 ϕ \phi ϕ函数。
MessagePassing.message(...)
方法可以接收传递给MessagePassing.propagate(edge_index, size=None, **kwargs)
方法的所有参数,我们在message()
方法的参数列表里定义要接收的参数,例如我们要接收x,y,z
参数,则我们应定义message(x,y,z)
方法。- 传递给
propagate()
方法的参数,如果是节点的属性的话,可以被拆分成属于中心节点的部分和属于邻接节点的部分,只需在变量名后面加上_i
或_j
。例如,我们自己定义的meassage
方法包含参数x_i
,那么首先propagate()
方法将节点表征拆分成中心节点表征和邻接节点表征,接着propagate()
方法调用message
方法并传递中心节点表征给参数x_i
。而如果我们自己定义的meassage
方法包含参数x_j
,那么propagate()
方法会传递邻接节点表征给参数x_j
。 - 我们用 i i i表示“消息传递”中的中心节点,用 j j j表示“消息传递”中的邻接节点。
- 首先确定要给节点
i
i
i传递消息的边的集合:
MessagePassing.aggregate(...)
:- 将从源节点传递过来的消息聚合在目标节点上,一般可选的聚合方式有
sum
,mean
和max
。
- 将从源节点传递过来的消息聚合在目标节点上,一般可选的聚合方式有
MessagePassing.message_and_aggregate(...)
:- 在一些场景里,邻接节点信息变换和邻接节点信息聚合这两项操作可以融合在一起,那么我们可以在此方法里定义这两项操作,从而让程序运行更加高效。
MessagePassing.update(aggr_out, ...)
:- 为每个节点
i
∈
V
i \in \mathcal{V}
i∈V更新节点表征,即实现
γ
\gamma
γ函数。此方法以
aggregate
方法的输出为第一个参数,并接收所有传递给propagate()
方法的参数。
- 为每个节点
i
∈
V
i \in \mathcal{V}
i∈V更新节点表征,即实现
γ
\gamma
γ函数。此方法以
三、继承MessagePassing
基类的GCNConv
类
我们以继承MessagePassing
基类的GCNConv
类为例,学习如何通过继承MessagePassing
基类来实现一个简单的图神经网络。
GCNConv
的数学定义为
x
i
(
k
)
=
∑
j
∈
N
(
i
)
∪
{
i
}
1
deg
(
i
)
⋅
deg
(
j
)
⋅
(
Θ
⋅
x
j
(
k
−
1
)
)
,
\mathbf{x}_i^{(k)} = \sum_{j \in \mathcal{N}(i) \cup \{ i \}} \frac{1}{\sqrt{\deg(i)} \cdot \sqrt{\deg(j)}} \cdot \left( \mathbf{\Theta} \cdot \mathbf{x}_j^{(k-1)} \right),
xi(k)=j∈N(i)∪{i}∑deg(i)⋅deg(j)1⋅(Θ⋅xj(k−1)),
其中,邻接节点的表征
x
j
(
k
−
1
)
\mathbf{x}_j^{(k-1)}
xj(k−1)首先通过与权重矩阵
Θ
\mathbf{\Theta}
Θ相乘进行变换,然后按端点的度
deg
(
i
)
,
deg
(
j
)
\deg(i), \deg(j)
deg(i),deg(j)进行归一化处理,最后进行求和。这个公式可以分为以下几个步骤:
- 向邻接矩阵添加自环边。
- 对节点表征做线性转换。
- 计算归一化系数。
- 归一化邻接节点的节点表征。
- 将相邻节点表征相加("求和 "聚合)。
四、覆写MessagePassing
基类的message(),aggreate(),message_and_aggreate()
和update()
具体备注都是代码里,每个方法都有其介绍,应该可以看懂每个方法的功能是什么。
from torch_geometric.datasets import Planetoid
import torch
from torch_geometric.nn import MessagePassing
from torch_geometric.utils import add_self_loops, degree
from torch_sparse import SparseTensor
class GCNConv(MessagePassing):
def __init__(self, in_channels, out_channels):
super(GCNConv, self).__init__(aggr='add', flow='source_to_target')
# "Add" aggregation (Step 5).
# flow='source_to_target' 表示消息从源节点传播到目标节点
self.lin = torch.nn.Linear(in_channels, out_channels)
def forward(self, x, edge_index):
# x has shape [N, in_channels]
# edge_index has shape [2, E]
# Step 1: Add self-loops to the adjacency matrix.
edge_index, _ = add_self_loops(edge_index, num_nodes=x.size(0))
# Step 2: Linearly transform node feature matrix.
x = self.lin(x)
# Step 3: Compute normalization.
row, col = edge_index
deg = degree(col, x.size(0), dtype=x.dtype)
deg_inv_sqrt = deg.pow(-0.5)
norm = deg_inv_sqrt[row] * deg_inv_sqrt[col]
# Step 4-5: Start propagating messages.
adjmat = SparseTensor(row=edge_index[0], col=edge_index[1], value=torch.ones(edge_index.shape[1]))
# 此处传的不再是edge_idex,而是SparseTensor类型的Adjancency Matrix
return self.propagate(adjmat, x=x, norm=norm, deg=deg.view((-1, 1)))
def message(self, x_j, norm, deg_i):
# x_j has shape [E, out_channels]
# deg_i has shape [E, 1]
# Step 4: Normalize node features.
return norm.view(-1, 1) * x_j * deg_i
def aggregate(self, inputs, index, ptr, dim_size):
print('self.aggr:', self.aggr)
print("`aggregate` is called")
return super().aggregate(inputs, index, ptr=ptr, dim_size=dim_size)
def message_and_aggregate(self, adj_t, x, norm):
print('`message_and_aggregate` is called')
# 没有实现真实的消息传递与消息聚合的操作
def update(self, inputs, deg):
print(deg)
return inputs
dataset = Planetoid(root='dataset/Cora', name='Cora')
data = dataset[0]
net = GCNConv(data.num_features, 64)
h_nodes = net(data.x, data.edge_index)
# print(h_nodes.shape)
五、总结
简单一句话概括消息传递范式就是消息传递范式是一种聚合邻接节点信息来更新中心节点信息的范式。
整个范式包含三个步骤:
(1)邻接节点信息变换
(2)邻接节点信息聚合到中心节点
(3)聚合信息变换
消息传递范式是节点表征的一种重要学习方式,因其简单又强大的功能,被人们广泛地使用。PyG提供了MessagePassing
基类,可以很方便地使用它来构造图神经网络;
我们通过中间三节地内容也了解了MessagePassing
基类是怎么运算的,也知道子类的方法是怎么用的,可以说这节课是在为我们介绍了一个数据结构,这个数据结构就是消息传递图结构,需要多应用才能熟悉上手。