研究背景
在药物发现中,生成能与特定蛋白质结合的分子至关重要但极具挑战。以往的工作大多采用自回归方式逐个生成原子的元素类型和三维坐标,但在真实分子系统中,原子间的相互作用是全局性的,基于能量考虑,概率建模应基于联合分布而非顺序条件分布,因此自回归方法可能违背物理规则,导致生成的分子性质不佳。
研究方法
- DiffBP 模型
- 这是一种生成扩散模型,以非自回归的方式在全原子水平上利用目标蛋白作为上下文约束来生成分子的三维结构。
- 给定一个指定的三维蛋白质结合位点,该模型使用等变网络对整个分子的元素类型和三维坐标进行去噪。
- 具体包括对连续位置的扩散(通过向原子坐标添加噪声并在去噪过程中恢复)、离散类型的扩散(采用吸收扩散模型处理原子元素类型)、等变图去噪器(利用 EGNN 学习转移分布)等操作。
- 模型在优化过程中有多个损失函数,包括连续位置去噪损失、离散类型去噪损失、避免结合交叉的损失和其他属性重建损失等。在生成去噪过程中,还涉及原子位置和元素类型的生成方法,以及预生成模型来处理分子质心和原子数量的问题。
基于机器学习的分子设计面临的挑战
- 数据需求
- 开发有效的机器学习方法需要大量数据,尽管现在这样的数据逐渐可用,但仍然是一个障碍。
- 任务复杂性
- 复杂的蛋白质结合位点:蛋白质结合位点作为条件背景很复杂,它不仅涉及目标蛋白质的三维几何结构,还包括氨基酸类型等其他信息,这些都必须考虑才能生成高亲和力的分子。
- 广泛的分布支持集:分子化学和坐标的期望分布有大量的支持集。与构象生成任务不同,作为二维图形约束的化学式是未知的,需要精心设计的模型来捕捉元素类型、连续三维坐标以及其他化学性质或几何形状之间错综复杂的耦合。
- 分子的几何对称性:在物理三维空间中,分子存在包括欧几里得群的平移和旋转在内的几何对称性,这意味着如果对结合位点进行对称操作,生成的分子应该进行相应的旋转或平移。
这张表格(Table 2)比较了由不同方法(3DSBDD、Pocket2Mol、GraphBP 和 DiffBP)生成的分子的其他类药特性。具体特性如下:
-
药物亲脂性效率(QED)
- 3DSBDD:0.3811
- Pocket2Mol:0.5106(最高)
- GraphBP:0.3830
- DiffBP:0.4431
-
合成可及性(SA)
- 3DSBDD:0.5185
- Pocket2Mol:0.5430(最高)
- GraphBP:0.4828
- DiffBP&