利用大规模无监督学习提升药物分子表示

 人工智能咨询培训老师叶梓 转载标明出处

在人工智能驱动的药物设计和发现领域,获取具有信息量的分子表示是一个至关重要的前提。近年来,研究者们将分子抽象为图,并利用图神经网络(GNNs)进行分子表示学习,展现出了巨大的潜力。然而,实际应用中GNNs面临着两个主要问题:一是用于监督训练的标记分子数据不足;二是模型对新合成分子的泛化能力较差。

为了解决这些问题,腾讯AI Lab的研究人员提出了一种名为GROVER(Graph Representation frOm self-superVised mEssage passing tRansformer)的新框架。该框架通过在节点、边和图级别上设计精心的无监督学习任务,能够从大量未标记的分子数据中学习丰富的结构和语义信息。

GROVER预训练框架

在大规模无标记数据上进行预训练,GROVER模型能够学习分子的丰富结构和语义信息。该模型基于Transformer构建,使用特制的图神经网络(GNNs)作为自注意力机制的构建块。这种设计使得模型不仅能够捕获图数据中的结构信息,还能在节点和边的消息传递路径上实现信息流动。

GROVER由两个模块组成:节点GNN转换器(node GNN transformer)和边GNN转换器。为了便于说明,本文只详细描述节点GNN转换器(简称node GTransformer),其结构如图1所示。

主要组件包括(图1):

  • 多头注意力机制(Multi-Head Attention):允许模型在处理查询(Q)、键(K)和值(V)时,能够从多个角度学习信息。
  • 层归一化(LayerNorm):有助于加快训练速度,提高模型的稳定性。
  • 前馈神经网络(Feed Forward):在每个注意力层之后使用,为模型提供额外的非线性能力。
  • 节点嵌入(Node Embed):将节点的原始特征转换为嵌入表示。
  • Aggregate2Node和Aggregate2Edge:分别用于将节点嵌入聚合到节点消息和边消息。
  • 串联(Concat):将来自不同层的信息连接起来,提供更丰富的表示。
  • 动态消息传递网络(DyMPN):一种新颖的消息传递机制,通过随机选择消息传递的跳数来增强模型的泛化能力。

GROVER设计的自监督任务如图2所示包括节点级的上下文属性预测任务和图级别的图式预测任务。

  • 节点/边级别的上下文属性预测:通过遮蔽节点或边的局部子图,模型需要预测目标节点或边的上下文属性。
  • 图级别的模式预测:利用领域知识,例如分子中的官能团,模型需要预测这些模式在分子中的出现。

动态消息传递网络(dyMPN)是GROVER的核心创新之一。传统的GNN消息传递过程需要预先指定每层的迭代次数和每次迭代中的跳数。GROVER引入了一种动态策略,即在每个训练周期中,根据某种随机分布选择每层的跳数。这种策略不仅提高了模型的泛化能力,还避免了过平滑问题。

自监督任务的设计对于预训练模型的成功至关重要。GROVER提出了两种自监督任务:节点/边级别的上下文属性预测和图级别的模式预测。

  • 上下文属性预测:通过定义局部子图中的节点/边的统计属性,模型能够预测目标节点/边的上下文属性。图3以一个节点的局部子图为例,展示了如何定义节点的上下文属性。

  • 图级别的模式预测:利用RDKit等专业软件检测分子中的官能团等模式,并将这些模式的出现作为预测目标。

预训练完成后,GROVER模型可以用于各种下游任务,如节点分类、链接预测和分子属性预测。通过微调,模型可以在特定任务上达到更好的性能。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

优快云教学平台录播地址:https://edu.youkuaiyun.com/course/detail/39987 

实验

实验包括预训练数据的收集、微调任务和数据集的准备、基线比较、以及下游任务的结果分析。

研究者们从ZINC15和Chembl数据集中收集了1100万个未标记的分子样本来预训练GROVER模型。为了模型选择,他们随机划分了10%的未标记分子作为验证集。

为了全面评估GROVER在下游任务上的性能,研究者们在MoleculeNet上的11个基准数据集上进行了实验,这些数据集涵盖了量子力学、物理化学、生物物理学和生理学等领域的各种目标。研究者们采用了更为现实的脚手架分割方法,以8:1:1的比例分配训练/验证/测试集,并进行了三次独立的随机种子脚手架分割实验,报告了平均值和标准差。

研究者们将GROVER与MoleculeNet中的10个流行基线模型和几个最新技术(STOA)方法进行了全面比较。表1中展示了所有模型在所有数据集上的性能比较。其中,标有绿色的方法是预训练方法。

在预训练阶段,研究者们为上下文属性预测任务设置了上下文半径k=1,以提取上下文属性字典,并分别获取了2518个和2686个不同的节点和边上下文属性作为节点和边的标签。每个分子图中随机遮蔽15%的节点和边标签进行预测。对于图级别模式预测任务,使用RDKit提取了85个功能团作为分子的模式,并将模式的标签表示为独热向量。为了评估模型大小的影响,研究者们预训练了两个不同隐藏层大小的GROVER模型:GROVERbase和GROVERlarge,同时保持所有其他超参数不变。

研究者们使用验证损失来选择最佳模型。对于每个训练过程,模型训练了100个周期。对于超参数,研究者们对每个数据集的验证集进行了随机搜索,并报告了最佳结果。

表1记录了所有模型在所有数据集上的整体结果。结果显示,GROVER模型在所有数据集上一致地实现了最佳性能,并且在大多数数据集上都有很大的提升。整体相对提升在所有数据集上是6.1%,在分类任务上是2.2%,在回归任务上是10.8%。这一显著的提升验证了GROVER预训练模型对分子属性预测任务的有效性。

为了研究自监督策略的贡献,研究者们比较了预训练的GROVER和未预训练的GROVER在分类数据集上的性能。结果显示,没有预训练的GROVER性能较差。自监督预训练平均AUC提高了3.8%,这证实了自监督预训练策略可以学习到隐含的领域知识,并增强下游任务的预测性能。

为了验证GTransformer的表达能力,研究者们实现了基于GIN和MPNN的不同骨干网络,并使用了一个包含600K未标记分子的玩具数据集进行了预训练。如图4所示,使用GTransformer骨干网络的GROVER在训练和验证中都优于GIN和MPNN,这再次证实了GTransformer的有效性。

为了证明GTransformer和dyMPN背后的理念,研究者们实现了两个变体:GROVER w/o dyMPN和GROVER w/o GTrans。如图5所示,GROVER w/o GTrans在训练和验证中表现最差,这意味着简单地结合GNN和Transformer并不能增强GNN的表达能力。dyMPN通过在训练过程中引入随机性,虽然稍微损害了训练损失,但验证损失变得更好。因此,dyMPN通过为每个消息传递步骤随机化接受域,为GROVER带来了更好的泛化能力。

https://arxiv.org/pdf/2007.02835v2

GitHub - tencent-ailab/grover: This is a Pytorch implementation of the paper: Self-Supervised Graph Transformer on Large-Scale Molecular Data

关注视频号随时了解前沿论文:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值