【综述】化学预训练模型

最新推荐文章于 2025-11-12 09:54:45 发布

原创

最新推荐文章于 2025-11-12 09:54:45 发布 · 1.2k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

本文探讨了使用深度神经网络进行分子表征学习的挑战，并介绍了多种预训练策略，如自动编码、自回归建模、掩蔽组件建模、上下文预测和对比学习。这些方法在无标签分子数据上预训练模型，然后应用于分子性质预测、分子生成、药物-靶点相互作用和药物-药物相互作用等任务。文章强调了预训练模型在化学和药物发现中的潜力，同时也指出了未来研究需要解决的问题，如改进编码器结构、建立可靠的基准测试和扩大模型的影响。

摘要

从零开始训练深度神经网络（DNNs）通常需要大量的标记分子。

解决 $\to$ 分子预训练模型（Chemical Pre-trained Models, CPMs），即DNN使用大规模的未标记分子数据库进行预先训练，然后对特定的下游任务进行微调。

首先，强调了从头开始训练分子表示模型来激励CPM研究的局限性。

接下来，从几个关键的角度系统地回顾了这一主题的最新进展，包括分子描述符、编码器架构、预训练策略和应用。

最后，强调了未来研究面临的挑战和有希望的途径，为机器学习和科学界提供了有用的资源。

1 引言

在这里插入图片描述

2 分子描述符和编码器 (Molecular Descriptors and Encoders)

为了将分子输入给GNNs，分子必须用数值描述符。本节简要回顾分子描述符及其相应的神经编码器结构。

Fingerprints (FP)： 分子指纹利用二元字符串描述了一个分子的特定子结构的存在和缺失。例如，PubChemFP。

Sequences： 分子最常用的序列描述符是简化分子线性输入规范（Simplified Molecular-Input Line-Entry System, SMILES），因为它的多功能性和可解释性。每个原子都被表示为一个各自的ASCII符号。化学键、分支键和立体化学键都用特定的符号表示。

2D graphs： 原子作为节点，化学键作为边。每个节点和边也可以携带表示原子类型/手性和键类型/方向的特征向量。例如，GNNs，GNNs + transformers。

3D graphs： 每个原子都与它的类型和坐标加上一些可选的几何属性，如速度有关。

3 预训练策略 (Pre-training Strategies)

在这里插入图片描述

3.1 自动编码 (AutoEncoding, AE)

用自动编码器重建分子（图3a）可以作为学习表达性分子表征的自监督目标。在分子重建中的预测是给定分子的（部分）结构，如原子的一个子集或化学键的属性。一个典型的例子是SMILES transformer，它利用基于transformer的编码-解码器网络，通过重建由SMILES表示的分子来学习表示。最近，与传统的输入和输出数据类型相同的自动编码器不同，*[Lin et al., 2022]*预训练一个图到序列的非对称条件变分自编码器来学习分子表示。虽然自动编码器可以学习分子的有意义的表示，但它们专注于单个分子，而不能捕获分子间的关系，这限制了它们在某些下游任务中的表现。