ICLR‘25 | 兼顾分子优化效率与效果,InversionGNN新方法解析!

【ICLR 2025预讲会】系列内容

ICLR 2025预讲会系列文章来源于 DAMO 开发者矩阵与 AI Time 联合举办 ICLR 2025预讲会整理成稿,旨在帮助大家率先了解深度学习领域的最新研究方向和成果。本文为文章作者的观点/研究数据,仅供参考,不代表本账号的观点和研究内容。

摘要

分子优化是药物设计和材料科学中的重要任务之一。分子优化的主要目标是通过改变分子结构(对分子内原子的增删置换)来达到所需的分子属性和功能。当前的分子优化方法存在很多问题,包括无法很好地兼顾效率和优化效果,以及对分子多属性的联合优化效果不佳等。

针对上述问题,香港科技大学团队提出了一种新方法,名为 InversionGNN,该方法将优化算法直接用于分子结构,同时解决了分子多属性联合优化的帕累托改进方法挑战,获得了不错的优化效果。

论文链接:https://arxiv.org/abs/2503.01488

代码仓库:https://github.com/ivanniu/InversionGNN

图片

现有分子优化方法介绍

当前业内进行分子优化的方法有两种,第一种是 CGM(约束生成模型),用一个生成模型将分子的离散拓扑结构映射到一个连续的潜空间(continuous latent space)上,然后在潜空间上使用梯度下降、贝叶斯、遗传算法等方法进行优化工作。在潜空间上找到较好的潜向量后,就可以用一个解码器将其解码为离散的分子结构;第二种方法是 CO(组合优化),直接在离散分子结构上做增删置换工作。

图片

第一种方法的效率很高,但效果较差。因为潜空间还不能很好地代表复杂的化学空间;第二种方法效果很好,但需要大量的筛查、后处理、分子属性验证工作,效率比较低下。

当前分子优化领域存在两大挑战,其一是如何充分利用已有的化学知识来筛选出较好的分子结构。解决方法一般使用一个预训练的分子属性预测器来做筛选,用一些分数指标筛掉较差的分子结构,但这种方法无法充分结合已有的化学知识,因为某些分子结构表现出的属性优势是很难用分数衡量的;其二是一些分子属性存在冲突或相关,如何取舍平衡来进行多目标分子优化。当前的方法一般只考虑了单个属性的优化,没有考虑到多个属性之间的复杂关系。

图片

InversionGNN 方法介绍

针对上述问题,香港科技大学团队提出了一种名为 InversionGNN 的新方法,其结合了 CGM 和 CO 两种已有方法的优点,提出了一个全新的优化框架:

图片

该方法没有将分子结构映射到潜空间,而是直接在分子结构上进行编辑操作,但优化操作时引入了梯度优化算法。

首先,该方法有一个预训练的多头架构分子预测器,它可以预测分子的多个属性。优化分子结构时,预训练的 Oracle 是固定好的。分子结构被输入到 Oracle 中,计算出一个损失函数,再通过反传,将梯度直接传回到分子上,相当于全过程训练的是分子本身而非神经网络,从而使用梯度优化的方式获得改良后的分子结构。

该方法还引入了帕累托优化方法,用于解决多属性优化挑战。这里的重点在于,传统帕累托优化都用于连续的参数空间,该方法首次将帕累托改进用在了离散的分子空间上。

所谓帕累托优化就是通过对优化过程中的梯度进行调整,使得最终的解是整体是怕累托最优的。对于分子而言,就是找出多属性上帕累托最优的分子(符合分子设计目标,也就是各个属性分别达到预期数值)。同时我们引入权重向量来控制帕累托优化中不同属性的重要性。分子结构本身是离散的,因此进行帕累托改进时,我们每一步找出局部最优改进最优,利用贪心的思想对分子进行优化。

图片

具体来说,该方法对分子的每个属性做一个损失函数,再对其求导得到导数,再对每一个属性的梯度进行平衡,得到统一的梯度再传回分子进行训练。这里使用了一个可微分的 scaffolding tree,在每一步对分子求导并找到邻域的帕累托最优解。这里的邻域是指每一次只对分子做一次修改对应的步骤。通过多次迭代,就可以得到最终的分子结构:

图片

图片

实验测试

InversionGNN 的实验设置如下:

图片

这里使用的指标除了分子优化领域常见的指标外,还增加了一个多目标指标 Hypervolume。实验的目标有二个,第一是考察该方法能否在给定权重(属性偏好)时找到帕累托最优解;第二是考察方法能否探索整体的帕累托前沿。

图片

实验结果表明,InversionGNN 可以很好地找到帕累托前沿(上图中的黑色曲线部分)与权重向量的交点,而其他方法很难获得类似的效果。其次,通过遍历权重向量, InversionGNN 可以很好地覆盖帕累托前沿,其他方法是很难充分覆盖的。

图片

而给定权重后,通过多步迭代,该方法可以很好地达成所需的属性偏好效果:

图片

上图中,蓝色的 X3(该方法的第三次迭代)已经落在了所需的偏好曲线(红色)上,其他方法(绿色)多次迭代后依旧明显偏离。

改变权重后,该方法获得的属性效果也相比其他方法显著提升了:

图片

接下来,团队还对该方法生成的各种分子的多个指标进行了整体评估。这些指标中,Div 和 APS 往往相互制约,很难同时取得较高的表演,而 InversionGNN 在这两个指标上都取得了一流的表现:

图片

在 Hypervolume 测试中,该方法的表现也显著优于其他多目标优化方法。

图片

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值