Enhancing Molecular Property Prediction with Knowledge from Large Language Models

最新推荐文章于 2025-12-03 08:43:36 发布

原创最新推荐文章于 2025-12-03 08:43:36 发布 · 1.9k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #分子属性预测 #知识信息 #推理信息 #大语言模型 #AI4S #MINE

小分子与药物化学专栏收录该内容

23 篇文章

订阅专栏

Enhancing Molecular Property Prediction with Knowledge from Large Language Models

引言
相关工作
方法
实验结果速读
结论
启发

本文提出了一种结合大型语言模型（LLMs）和分子结构信息的方法，以提升分子属性预测的准确性。该方法 通过提取LLMs关于特定分子属性的知识，并将其与预训练的分子结构模型生成的特征相结合，形成一个知识融合框架。实验结果表明， 该方法能有效提高分子属性预测的性能，特别是在处理药物发现过程中的重要任务时显示出显著优势。研究还分析了不同LLMs提供的知识对模型性能的影响，并探讨了 直接整合所有分子描述符并不一定导致更好的结果。此外，文中还讨论了知识重复和冲突的问题，以及如何通过选择性地集成知识来优化模型表现。总体而言，这项工作证明了将LLMs的知识与结构信息结合起来是提高分子属性预测准确性的有效途径，为进一步的研究提供了新的视角和方法。

把 LLM “知识向量”接到分子图上
本文把 LLM 提取的“知识特征”与预训练 GNN 的结构表征做可学习融合，并用 MINE 最大化二者的互信息。在 MoleculeNet 上，多数预训练骨干接入 LLM 知识后都有提升；而“把所有 RDKit 描述符一股脑拼上”反而常常掉点。作者还统计了 LLM 规则的重复/冲突率，展示“知识清洗”的必要性。

论文地址：https://arxiv.org/pdf/2509.20664v1
关键要点：

专家手工设计的特征被用于训练传统机器学习模型和现代深度神经网络架构。
图形化分子结构可以自然地被视为图结构，因此使用图神经网络进行分子预测任务已成为趋势。
训练深度神经网络需要大量高质量标记数据，但有限的标记分子数据限制了模型性能提升的方法。
基于预训练语言模型的知识增强方法已被应用于分子预测任务中，并取得了显著效果。
结合预训练语言模型的知识和分子结构的信息可以提高分子相关任务的表现。

引言

预测分子特性是药物发现过程中的关键任务。用于分子性质预测的计算方法不仅能够加速药物筛选，还能提高成本效益。传统的**分子性质预测（MPP）**计算方法通常涉及提取分子指纹或精心设计的特征，随后应用支持向量机（SVM，Cortes和Vapnik，1995年）及随机森林（RF，Ho，1998年）等机器学习算法。然而，这些方法高度依赖领域专家进行特征提取，并且容易受到人类知识偏见的影响（Merkwirth和Lengauer，2005年；Degen等人，2008年）。深度学习的兴起在一定程度上缓解了这些局限性。与传统方法相比，深度学习技术能更充分地利用日益丰富的数据资源，同时减少对人工特征工程的依赖。尤其值得一提的是，图神经网络（GNNs）在分子领域的应用，已展现出巨大潜力，因为分子可自然地被表示为图结构。这些模型可以直接在分子图上进行端到端训练，从而更有效地捕捉高阶非线性关系，消除人为偏见，并灵活适应不同任务（Wu 等，2020；Mayr 等，2018；Wieder 等，2020）。

近年来，众多基于图神经网络的方法相继被提出，其中许多致力于开发更先进的自监督学习技术（Liu等，2021b），利用对比学习（Khosla等，2020），并从海量未标记分子数据中提取出更加稳健的分子表示（Liu等，2022；Wang等，2022）。然而，我们坚信，在可预见的未来，人类的先验知识仍将不可或缺。例如，Interformer（Lai等，2024）通过明确约束分子与靶标之间的化学键，能够更准确地预测合理的分子构象。同样，AlphaFold借助多序列比对技术，显著提升了分子和蛋白质构象预测的精度（Jumper等，2021）。更为重要的是，LLM4SD（Zheng等，2025）利用大语言模型提取人类知识，用于分子向量化，随后结合随机森林算法进行药物-靶点相互作用预测，在多项任务上已超越了基于图神经网络的方法。像ChatGPT（OpenAI，2022）和DeepSeek（Guo等，2025）这样的大语言模型，已在海量人类数据上进行了训练，并通过强化学习从人类反馈中微调优化（Bai等，2022），使其所掌握的知识广度与深度远超大多数人类个体。不过，这些大语言模型所积累的分子知识在分布上呈现出明显的长尾特征——对于已被充分研究的分子特性，模型可能已积累了丰富经验；但对于那些尚未深入探索的领域，它们可能缺乏足够的参考规则。此外，由于众所周知的“幻觉”现象，即使在缺乏足够知识的情况下，大语言模型也常常会给出看似合理甚至可信的答案。尽管LLM4SD提供了一种有效途径，帮助我们充分利用大语言模型中蕴含的知识，但它仍无法完全消除模型产生的幻觉与偏差。因此，我们认为，将分子结构信息——尤其是从预训练结构模型中学到的表征——与人类先验知识相结合，无疑是一条在MPP方向极具前景的研究路线。

在本工作中，我们提出将大模型的知识与分子结构信息相结合，以增强分子性质预测（MPP）能力。与LLM4SD类似，我们基于不同类型的分子特性，从大模型中提取先验知识，并进一步通过提供与目标属性相关的分子样本，引导大模型推导出潜在的分子知识。同时，我们指示大模型生成相关知识以及可直接执行的功能代码，这些代码随后被用于对分子进行向量化处理，从而获得基于知识的分子特征。接着，我们将这些提取的知识特征与预训练分子结构模型所得到的结构特征进行融合。通过知识特征与结构特征的有机结合，我们的模型不仅充分利用了人类专家的广泛知识，还能够从结构特征中直接学习到结构与性质之间的映射关系。为此，我们选取了三种最先进的大模型进行知识提取，包括GPT-4o、GPT-4.1（OpenAI 2022）以及DeepSeek-R1（Guo et al. 2025）。大量对比实验结果表明，我们的方法具有显著效果，充分验证了大模型确实能为分子性质预测提供可靠的知识支持。
图1：（a）传统机器学习算法高度依赖专家知识和特征工程，这限制了它们的适应性和泛化能力。（b）图神经网络虽然能直接将分子图映射到属性上，但往往忽略了专家的洞察。（c）我们通过利用大语言模型将专家知识与图结构相结合，有效弥补了这一差距，从而提升了分子属性预测的准确性。

背景：GNN 已经能从 SMILES/分子图端到端学表征，但人类先验（规则、阈值、片段、理化区间）在一些性质上仍然有用；而 LLM 恰好“装着”这类知识，但也会幻觉、长尾缺失。
核心想法：让 LLM 产出“可执行的规则函数”（对给定 SMILES 输出 0/1 或实值），把这些规则在分子上批量计算成“知识向量”；再与结构向量（预训练 GNN）拼接，经两层感知器 + 批归一融合；同时引入 MINE，显式拉高知识与结构的互信息，鼓励“互补而不是互相掩盖”。

相关工作

基于专家建立特征的分子属性预测方法

许多早期的MPP模型都基于专家精心设计的特征，主要包括两大类：分子描述符和分子指纹。分子描述符是从分子结构中提取出的定量特征或属性，这些特征可从简单的数值到复杂的数学表达式不等，用于描述分子的物理化学性质、拓扑结构以及电子特性（Khan等，2016）。而分子指纹则是一种二进制向量或位串，用于表示分子结构。它们将分子结构映射为固定长度的位串，其中每个比特通常指示特定子结构或化学特征的存在与否（Barnard和Downs，1997年；谢里丹等人，1996年；丹尼苏丁与汗，2016年）。这类模型的性能通常取决于这些专家特征的选择及其质量（张等人，2017a；范等人，2018年）。这些由专家精心设计的特征常被用于训练传统的机器学习模型，如LightGBM、随机森林和支持向量机（张等人，2019年，2017b）。此外，一些研究还采用分子指纹作为输入特征，以训练更先进的深度神经网络架构，例如BERT（文等人，2022年）和GNN（蔡等人，2022年）。

基于图的分子属性预测方法

分子可以自然地被视为图结构，其中原子被视作节点，而原子间的共价键则作为边。随着图神经网络（GNN）的快速发展，越来越多的研究开始转向利用GNN解决分子性质预测任务。然而，训练深度神经网络需要大量高质量的标注数据。由于分子领域标注数据稀缺，先前的研究已探索了多种方法来提升模型的预测能力，例如预训练、对比学习和知识增强。其中，预训练通过构建自监督学习任务，并在大规模无标签数据集上进行训练，以获得更优的初始权重，从而显著提高模型在下游任务上的预测性能。常见的自监督范式包括节点属性重构、上下文学习，以及构建多视角图用于对比学习（Veliěkovic et al. 2017；You et al. 2020；Xia et al. 2023）。此外，对比学习方法通过对比损失函数，促使模型更好地对分子的不同模态信息进行对齐，进而增强其泛化能力，同时也可被视为一种预训练任务（Liu et al. 2021a；Kuang, Ren, and Ren 2024；You et al. 2020；Xiang et al. 2023；Wang et al. 2022）。而知识增强则旨在借助外部知识库，帮助模型更深入地理解分子特性。例如，KPGT（Li et al. 2023）创新性地将额外知识作为分子标签引入，使模型能够有效整合分子图结构与语义信息，实现更精准的预测。

基于大模型的分子属性预测方法

随着大规模语言模型在通用领域取得显著成功，近期研究者们开始尝试利用语言模型（LM）或大语言模型（LLM）开展分子性质预测（MPP）。例如，（Liu 等，2023）将训练语料库中分子的CHEML ID替换为SMILES序列，从而构建出包含SMILES信息的文本数据，并在此基础上对MolT5（Edwards等，2022）进行微调，以实现分子属性的预测以及分子与自然语言之间的双向转换。类似地，（Liu 等，2024）还开发了一套基于SMILES的混合指令集，用于微调LLaMA模型，在少样本和零样本的分子性质预测任务中均取得了优异表现。此外，MolFM（Luo 等，2023）通过整合知识图谱、分子结构及自然语言等多种模态的信息，成功训练出一种面向分子的多模态基础模型。而BioT5（Pei 等，2023）则采用分子的SELFIES序列、蛋白质序列以及自然语言联合训练，同样实现了高效的分子性质预测及相关任务。

然而，这些方法需要对语言模型进行大量微调，以从大规模数据集中学习分子与自然语言之间的映射关系，而非直接从预训练的大型语言模型中提取人类关于分子的知识。目前现有的通用大语言模型，如Chat-GPT（OpenAI, 2022）和DeepSeeks（Guo等，2025），已在全球海量人类知识库上经过深度训练，这表明它们可能已内化了人类在分子领域积累的知识与经验。LLM4Mol（Qian等，2023）利用ChatGPT为分子序列标注，并将标注文本的嵌入特征应用于下游任务；而LLM4SD（Zheng等，2025）则借助大语言模型提取与任务相关的规则，再基于这些规则对分子进行向量化处理，最后训练随机森林模型以预测药物多药耐药性（MPP）。尽管这两种方法都充分利用了大语言模型从人类经验中习得的知识，却忽略了分子本身所蕴含的结构信息。

直觉上，LLM从人类语料库中习得的分子知识呈现长尾分布特征。对于研究较为深入的分子特性，LLM可能已积累了足够丰富的经验；而对那些缺乏大量研究文献的知识，LLM或许无法提供恰当的参考规则。因此，在涉及分子的相关任务中，融入分子自身的内在结构至关重要。本文首次提出了一种结合LLM驱动知识与分子结构的MPP方法。

方法

对于每个MPP任务 $t \in T$ ，我们有一个数据集 $D_t = (X_t, Y_t)$ ，其中每个 $x_{t,i}∈ X_t$ 代表分子的SMILES表示法，而每个分子都对应一个分子图 $g_{t,i} ∈ G_t$ 。每个分子的真实标签为 $y_{t,i} ∈ Y_t$ 。

我们利用大模型提供的知识作为分子知识特征。借鉴LLM4SD的思想，我们同时提取了先验知识和推理知识。其中，先验知识指大模型从海量人类文献中习得的信息；而推理知识则源自大模型的推理能力，使其能够基于少量样本推导出新的知识。

LLM4SD用一个分段式方法实现了这一知识提取过程：首先，我们赋予大语言模型化学专家的角色，使其根据任务类型总结一组判断规则，或从给定的分子样本中推导出可能的规则。随后，这些规则会被传递给另一个代码型大语言模型，由它据此生成可执行代码。为了优化这一流程，我们设计了提示词，直接指导大语言模型同时生成规则及其对应的可执行函数代码。图2-(a)和(b)分别展示了我们的知识提取方法与LLM4SD方法之间的差异。对于给定的任务 $t$ 和分子 $x_{t,i}$ ，我们通过先验知识函数 $f_t^P(\cdot)$ 和推理知识函数 $f_t^I(\cdot)$ ，动态构建分子知识表示 $v_{t,i}^K$ 。接着，将提取出的分子知识表示与分子图表示 $f_G(g_{t,i})$ 融合，最终以融合后的特征作为模型的输入。

互信息量化了两个随机变量之间的相互依赖程度。具体而言，它衡量了在已知其中一个变量的情况下，另一个变量不确定性降低的程度。从数学上讲，互信息定义为：
$I (X; Y) = H (X) + H (Y) - H (X, Y)$
这里， $H (X)$ 和 $H (Y)$ 分别表示随机变量 $X$ 和 $Y$ 的熵，而 $H (X, Y)$ 则代表它们的联合熵。最大化互信息意味着利用 $Y$ 尽可能多地提供信息，以减少 $X$ 的不确定性。这种方法已在对比学习、多模态融合以及自监督学习等领域得到了广泛验证，证明其有效性（You 等，2020；Han、Chen 和 Poria，2021；Ben-Shaul 等，2023）。在本工作中，我们将分子的知识向量和结构向量视为两种不同的模态。我们的目标是通过引入知识信息，降低仅基于图结构预测所带来的不确定性。因此，我们致力于更有效地提取模态间的互补信息，具体做法是最大化知识潜在表示与结构潜在表示之间的互信息。为此，我们采用了MINE 方法（Belghazi 等，2018），该方法利用神经网络在连续空间中实现互信息的最大化：
$\text{argmax}_\theta I(H^K,H^S)=\text{argmax}_\theta \mathbb{E}_{p(H^K,H^S)}[T_\theta ]-\log (\mathbb{E}_{p(H^K)\cdot p(H^S)}[e^{T_\theta }])$
其中 $T$ 表示一个神经网络， $\theta$ 表示 $T$ 的参数。

LLM4SP方法流程
图2：我们借鉴了LLM4SD方法，从大模型中提取知识。但与LLM4SD将过程分为知识提取和代码生成两个独立阶段（a）不同，我们优化了提示词，能够在一步之内同时生成所需知识及其对应的可执行函数（b）。

1. 知识提取

先验信息（Piror）：不看数据，直接让 LLM 以“化学专家”口吻给出至少 10 条判断规则，并伴随可执行 Python 函数（SMILES→特征/0-1）。
推理信息（Inference）:给 LLM 少量正样本（如 50 个），让它归纳可能判别式，同样要求函数形式。

论文 Figure 2b 一次 prompt 同时产出“规则+函数”的一体化流程（对比 Figure 2a 的“两段式”）。

2. 知识向量化与融合

对每条分子 $x$ ，执行 prior/inference 的函数集合，拼成 知识向量 $v^K$ ，经 BN→FC→ReLU→FC 得到 $h^K$ 。
分子图经 预训练 GNN（示例：GIN） 得结构表征 $h^S$ 。
最终特征 $h=MLP([h^K||h^S])$ 作为分类头输入。

论文 Algorithm 1: Knowledge & Structure Fusion 的伪代码。

3. 互信息最大化（MINE）

目标：最大化 $I(H^K,H^S)$ ，用 MINE 的判别器 $T_\theta$ 估计下界，训练时与分类损失联合优化。

实验结果速读

整体验证

在 HIV/BACE/BBBP/ClinTox 四个任务、八个预训练骨干上，接入 GPT-4.1/GPT-4o/DeepSeek-R1 的知识后，ROC-AUC 与 precision 大多上升，其中 ClinTox 的提升最显著（类别极不均衡，precision 更有参考意义）

论文 Table 1：各骨干 + 三种 LLM 的ΔROC-AUC/ΔPrecision 汇总。

表1：展示了利用不同预训练模型作为骨干网络，整合来自不同大语言模型知识的实验结果。其中，“GNN+Desc.”表示对所有描述符进行无选择性整合。符号“+”表示引入额外知识后模型性能有所提升，而“-”则表明性能出现下降。值得注意的是，针对HIV数据集，描述符特征过于稀疏且高度相似，这导致模型中梯度消失，最终使GNN+Desc.无法实现准确预测。我们分别使用5个不同的随机种子重复进行了5次实验，并报告了平均结果。

LLM 之间的差异

平均看 GPT-4.1 的增益最稳，DeepSeek-R1 在 HIV/ClinTox/BBBP 的平均提升优于 GPT-4o。个别组合会小幅负增益（如 BBBP 上的极少数骨干）。

图5：先验知识与分子性质的斯皮尔曼等级相关系数。

与“全量 RDKit 描述符”对比

直接把所有描述符拼到 GNN（GNN+Desc.）——在 ClinTox/BBBP 上明显变差，在 HIV 甚至出现特征稀疏→梯度消失的失败案例。说明 </font color=‘red’>LLM 产出的“精选规则”比“生吞所有描述符”更有效。

论文 Figure 4全量描述符热图（与知识向量对照）。
图4使用所有分子描述符对向量进行可视化
使用所有分子描述符对向量进行可视化。从左至右，数据集依次为HIV、BACE、ClinTox和BBBP。

知识可视化

知识提取。我们从三种主流大模型——GPT-4o、GPT-4.1和DeepSeek-R1——中分别提取了每项任务的先验知识与推理知识。用于此过程的提示详情见附录1。对于需要样本数据的推理知识，我们从每个训练集中随机选取50个正样本，并在所有大模型间统一使用这些样本，以确保一致性。

知识向量热图对 HIV/ClinTox/BBBP 能清晰区分正负例，BACE 弱一些（需要结构端补位）。

论文 Figure 3 四数据集的知识向量热图（前 100 正、后 100 负）。

图3 不同大模型在各数据集上生成的知识向量可视化。每个子图的每一行代表一个分子，每列对应一个特征。其中，前100行随机选取的为正样本，后100行则随机选取的为负样本。

规则质量（重复/冲突）

知识冗余与冲突。在提取先验知识和推理知识时，我们明确要求每种大模型至少提供10条规则。例如，在Clin-Tox任务中，我们用于提取先验知识和推理知识的提示如下：“如何根据分子的SMILES结构判断其是否具有临床毒性？请提供至少10条可用于评估的计算规则，并附上基于Python的计算方法。每条规则应被实现为一个函数，输入为分子，输出为0或1；以及‘如何依据分子的SMILES表示判断其是否具有毒性？请从下方经临床验证的有毒SMILES结构中推导出可能的判定标准，并使用Python提供至少10种计算方法。每条规则均需以函数形式实现，输入为分子，输出为0或1。以下是已被临床证实具有毒性的分子列表：……’”

在大多数情况下，每个大语言模型会生成10条规则，但ClinTox 数据集除外，其中GPT-4.1 生成了15条规则。我们还注意到，生成的先验知识和推理性知识有时会出现重复与冲突现象。其中，“重复”指两条规则具有完全相同的评估标准；而**“冲突”则指两条规则针对同一方面，却给出了不同的阈值**。例如，在 HIV 数据集中，GPT-4o 生成的先验知识和推理性知识均包含同一条规则：“含有芳香环”，且所采用的计算方法完全一致。然而，在评估分子的拓扑极性表面积（TPSA）时，先验知识认为当 TPSA < 140 时分子可能具有毒性，而推理性知识却指出，当 20 ≤ TPSA ≤ 200 时才存在毒性风险。

作者量化了 LLM 给出的 重复率 与 冲突率（同一指标不同阈值）。例如 GPT-4.1 平均重复率低、冲突率相对高；GPT-4o 相反。

表2 不同大模型提供的知识的重复率与冲突率。
表2：不同大模型提供的知识的重复率与冲突率

结论

我们通过整合来自大语言模型的知识向量与分子的结构特征，增强了分子表示能力，有效解决了这些向量在某些性质上区分度有限的问题。这一方法已在多个预训练模型中得到验证，证明其有效性，同时也凸显了将LLM衍生知识与传统特征融合应用于其他领域的巨大潜力，有望带来新的洞察与突破性进展。

启发

“代码化的知识”比“文本提示”更可靠
让 LLM 直接产出可执行函数，把“会说”变成“会算”；同时也便于单元测试/去重/冲突消解。在 MPP 里，比“让 LLM 直接判定分子是否有毒”稳得多。
互信息目标的角色
把 $H^K$ （知识）与 $H^S$ （结构）拉近，减少“两个分支各说各话”的状况；尤其在 BACE 这种知识向量辨识度弱的任务，MINE 有助于“把弱线索嵌进结构空间”。
为什么“全量描述符”会拖后腿
不是“特征越多越好”：高维稀疏 + 共线使得下游 MLP 难以稳健拟合；LLM 输出的数十维规则反而紧凑、判别性强。这与表中 GNN+Desc. 大面积掉点一致。
长尾知识 & 幻觉的现实
在 BACE/HIV 等相对长尾的性质上，prior/inference 规则的相关性较低——说明 LLM 对小众性质仍欠火候。当前做法通过结构分支 + MI 部分兜底，但从源头改 prompt/校验会更稳。
任务依赖的“知识选择”
论文按任务分别提取规则，这是关键细节：ClinTox 更需要“芳香环计数 / TPSA / LogP 区间”一类规则，BBBP 强依赖“极性/氢键受体上限”。一套规则打天下会弱化增益。