分子图神经网络:原理、架构与应用
1. TokenGT与读出操作
TokenGT是一种独特的图神经网络方法,与以往仅对节点进行分词并在注意力更新中整合边信息的工作不同,它同时对节点和边进行分词。具体而言,使用正交节点标识符对分词的连接性进行编码,同时利用可训练的类型标识符来编码一个分词是节点还是边。这种方式使得TokenGT能够适应为纯Transformer引入的线性注意力机制(如Performer),并将计算成本控制在$O(N + M)$,其中$N$和$M$分别是节点和边的数量。
在图神经网络中,读出操作是一个关键步骤,它用于聚合图中所有更新后的节点特征。常见的读出操作包括对所有节点特征进行池化,如均值池化、最大池化和求和池化。研究表明,求和池化比均值池化和最大池化更具表现力,因为它能够捕捉完整的多重集信息,而其他两种池化方法则无法做到。
为了提高表示学习和计算效率,研究人员还探索了其他读出函数。例如,注意力机制已被用于替代求和或均值池化作为读出操作。Vinyals等人提出了set2set函数,该函数使用LSTM处理无序且大小可变的输入集。此外,还有一些方法通过对节点进行重排来对特征进行下采样。例如,Defferrard等人通过Graclus算法将图粗化为多级结构,然后将节点重排为平衡二叉树,并以自底向上的方式聚合节点特征进行读出操作。Zhang等人提出的SortPool则根据节点在输入图中的结构角色对节点进行排序,并在排序后截断图的大小。DiffPool开发了一个可微的池化模块,用于生成层次化的图表示,它在每一层学习软聚类分配以聚合节点特征。SAGPool则将自注意力与端到端的层次化表示学习相结合,同时考虑节点特征和图拓扑结构。
超级会员免费看
订阅专栏 解锁全文
13万+

被折叠的 条评论
为什么被折叠?



