Motif-based Graph Self-Supervised Learning for Molecular Property Prediction
基本信息
博客贡献人
秦明
作者
Zaixi Zhang, Qi Liu, Hao Wang, Chengqiang Lu, Chee-Kong Lee
摘要
近年来,用数据驱动的方法预测分子性质引起了人们的广泛关注。特别是,图形神经网络(GNN)在各种分子生成和预测任务中表现出显著的成功。在标记数据稀缺的情况下,可以在未标记的分子数据上对GNN进行预训练,以便在针对特定任务进行微调之前首先学习一般的语义和结构信息。然而,大多数现有的GNN自我监督预训练框架只关注节点级或图级任务。这些方法无法捕获子图或图基序中的丰富信息。例如,官能团(分子图中经常出现的子图)通常携带关于分子性质的指示信息。为了弥补这一差距,我们提出了基于Motif的图自监督学习(MGSSL),通过为GNN引入一种新的自监督主题生成框架。首先,为了从分子图中提取基序,我们设计了一种分子碎片化方法,该方法利用基于逆转录合成的算法金砖和控制基序词汇大小的附加规则。其次,我们设计了一个通用的基于基序的生成预训练框架,其中GNN被要求进行拓扑和标签预测。这种生成框架可以以两种不同的方式实现,即广度优先或深度优先。最后,为了考虑分子图中的多尺度信息,我们引入了多级自我监督预训练。对各种下游基准任务的大量实验表明,我们的方法优于所有最先进的基线。
问题定义
-
GNN在分子性质预测方面通常需要大量标记数据(即具有已知性质数据的分子),因为这些标记数据只能从室实验或量子化学计算中获得,这既耗时又昂贵。此外,以监督的方式在小标记分子数据集上直接训练GNN容易过度拟合,并且训练的GNN很难推广到分布外的数据。再者,小分子基团(官能团)在分子性质预测上发挥着巨大作用,一个可以标识官能团的预处理方法,可以有效提高模型对于分子有效结构的提取,因此该文章提出基于Motif的图自监督学习(MGSSL)和多级自监督预训练。
-
给定一个药物分子 G = ( V , E ) G=\left (V,E \right ) G=(V,E),构建一棵motif树 τ ( G ) = ( ν , ε , χ ) \tau \left (G\right )=\left ( \nu ,\varepsilon,\chi \right ) τ(G)=(ν,ε,χ),其中树的节点可以看作官能团,也就是药物分子图的子图M,官能团的提取采用的是Brics算法,将分子中可以参与化学反应的键断裂,可以形成不同的子结构,我们将它作为motif树的节点,motif树的节点表示为 ν = { M 1 , . . . M n } \nu =\left \{ M_{1},...M_{n} \right \} ν={ M1,...Mn},我们将药物分子转换成motif树的形式,将motif树作为预训练的数据,将预训练好的参数最后用于下游任务。
-
这类任务的挑战:
- 预训练模型应如何构建预训练任务才能更好的迁移到下游任务
- DFS和BFS的多层迭代导致代码效率较低
方法
方法描述
MGSSL
- 基于Motif的图形自监督学习(MGSSL)的图示。多级预训练包括两层,Atom层和Motif层。在Atom层中,我们屏蔽节点/边缘属性,并让GNN基于相邻结构预测这些属性。在Motif层,我们构建主题树并进行主题生成预训练。在每个步骤中,基于现有的基序和连接,迭代地进行拓扑和基序预测

motif树的构建方法

分子碎裂概述,一般来说,有三个步骤:
(1)首先基于BRICS切割分子图。
(2) 进一步分解以减少基序的冗余。
(3)从分子图构建基序树。在预处理整个分子数据集后,构建基序词汇表
预训练任务构建

- MGSSL预训练模型所采用的任务目标是将motif树进行重新构建,构建的顺序有深度优先和广度优先两种策略,为了从头生成主题树,我们需要首先选择motif树的根。在我们的实验中,我们只需选择具有规范顺序中第一个原子的基序。然后,MGSSL以DFS或BFS顺序生成基序。在DFS顺序中,对于每个访问的motif,MGSSL首先进行拓扑预测:该节点是否有要生成的子节点。如果生成了一个新的子基序节点,我们就预测它的标签并重复这个过程。当没有更多的子代要生成时,MGSSL会回溯。对于BFS顺序,MGSSL逐层生成基序节点。对于第k层中的基元节点,MGSSL进行拓扑预测和标签预测。如果生成了第k层中所有基序的子节点,则MGSSL将移动到下一层。
拓扑预测
当MGSSL访问motif i 时,它需要对是否要生成子对象进行二分类预测。我们通过一个单隐层网络计算概率P:
p t = σ ( U d ⋅ τ ( W 1 d x i + W 2 d ∑ ( k , i ) ∈ ε ^ h k , i ) ) p_{t}=\sigma \left (U^{d}\cdot \tau \left ( {W_{1}}^{d}x_{i}+W_{2}^{d}\sum_{(k,i)\in \hat{\varepsilon }}^{}h_{k,i} \right ) \right ) pt

文章提出基于Motif的图自监督学习(MGSSL)用于分子性质预测。在标记数据稀缺时,现有GNN自我监督预训练框架有局限。MGSSL设计分子碎片化方法提取基序,构建通用生成预训练框架,引入多级自我监督预训练。实验表明其优于基线,但存在代码迭代效率低等不足。
最低0.47元/天 解锁文章
4057

被折叠的 条评论
为什么被折叠?



