文献学习1-Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules

分子生成与优化

最新推荐文章于 2025-09-11 07:02:32 发布

原创

最新推荐文章于 2025-09-11 07:02:32 发布 · 3.3k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #机器学习

可能是因为背景知识了解的太少，本来只是想整理一下思路，记记不懂的地方的，不知不觉几乎变成一篇翻译了QAQ。最后一段METHODS实在是一个字都看不懂，就不放出来了。这篇里应该有很多错误，有大神发现的话一定要戳戳我，感谢~

摘要：

作者找到了一种可以把分子的离散表示（例如本文的SMILES表示方法）和多维连续表示相互转换的方法，这可以用来在开放式化合物空间中产生新分子。

一个深度的神经网络经训练可以实现三个耦合功能：

编码。将分子的离散表示转换为实型连续向量。
解码。从实行连续向量转换为离散表示。
预测。从潜在连续向量中估计分子的化学性质。

关于多维连续表示的一些性质：

可以通过在潜在空间做一些简单的操作来自动获得index化学结构。
允许使用基于梯度的优化来知道优化功能化合物的搜索。

本文通过对类药分子和一组少于9个重原子的分子来证明他们的方法

介绍

要想找到具有理想的定量的性质的分子是很困难的，因为可搜索的空间太大了，潜在的、具有类药性的分子太多，而事实上目前为止真正合成的物质相比起来少之又少。
虚拟筛选是一个加快搜索的好方法，在投入正式实验之前，可以把候选药物用法基于训练了的代理模型的第一性模拟和统计预测来试验一下。但是，即使如此，计算分子的设计还是被搜索策略所限制。
当前的搜索策略有：

搜索固定库。但固定库是单块的，搜索代价高昂，而且为了避免不合实际的化学反应，需要人工制定规则。
离散的局部搜索方法——遗传方法。需要人工制定突变和交叉规则的启发法。
离散的局部搜索方法——离散插值方法。它因为不允许用梯度方法搜索，所以难以搜索大空间。

一个连续的、数据驱动的、可以转换为机器可读分子的分子表示方法诸多优点：

不需要手写突变规则，因为我们可以用修改向量并解码的方式获得新化合物。
如果建立了一个可微分的模型，将分子表示映射到所需性质，就可以用基于梯度的优化。
可以用未标记的大量化合物建立一个隐式库，再用已标记的化合物建立一个从分子表示到所需性质的模型。这样我们就可以利用由未标记化合物生成的库了。

我们可以把近期机器学习的成果——概率生成模型经训练后可以产生逼真的合成样本，而且模型还可以生成建模数据的低维连续表示，从而可以用插值、类比推理等方法——应用到化学设计中。我们应用一对训练成为自动编码器的深层网络，把分子的SMILE方法表示（事实上我们可以采取任意表示方法，但是SMILE方法可以轻松地转换为分子）转换成连续向量表示。
现在有了分子连续向量表示，就可以用连续优化的方法来生成新分子。我们基于属性预测任务来联合训练自动编码器：添加一个多层感知器，可以预测属性值，并且把回归误差包含在损失函数中。然后我们检查联合训练对潜在空间的影响，并测试了这种优化。

表示法和自动编码器框架

自动编码器分为把字符串转换为固定长度向量的“编码器”和执行逆过程的“解码器”。自动编码器要最小化解码的误差，因此它要学习身份功能。自动解码器的关键在于用信息瓶颈（在这里也就是固定长度向量）来映射字符串。信息瓶颈诱导网络学习一种压缩的表示方法，这种表示方法捕获了数据中最显著的信息。（这段指的是解码过程吗?) 我们把用向量表示的分子（vector-encoded molecule）称作分子的潜在表示（latent representation of the molecule)。（continuous molecular representation和latent representation是一个东西吗，还是说前者经过一些处理之后才会变成后者?)
为了可以在潜在空间进行无限制的优化，必须把潜在空间中的点解码，成为捕获了训练数据中的化学性质的SMILES字符串。否则 (是指没有捕获训练数据中的化学性质吗?) ，自动编码器学习得到的潜在空间就会很稀疏并且包含巨大的“死区”——即解码得到的SMILES字符串无效。为了确保潜在空间的点都能解码有效，我们使用变分自动解码器（VAE）框架。

VAE框架：