AI 深度学习+药物研发,让新药不再遥不可及,轻松 Get!| MedChemExpress (MCE)

深度学习是人工智能的一个分支,它是一种利用神经网络进行学习的技术。深度学习技术在生物医学领域已经取得重要进展,目前研究人员已经开发了一系列基于深度学习的疾病诊断、蛋白质设计、医学图像识别的应用策略。制药工业界目前也开始重视深度学习技术,希望利用其加速药物研发并降低成本。

图片

此前的研究表明,深度学习技术在优化化学合成路线、预测药物的药代动力学性质、预测药物的作用靶点以及生成新型分子等方面具有优势。

图片

图片

图 1. 虚拟筛选在药物开发流程中的地位[1]。

  虚拟筛选:化合物-靶蛋白的亲和力

深度学习可以通过训练大量的已知化合物-靶蛋白相互作用数据来学习化合物和靶蛋白之间的内在关系。这种训练过程使得深度学习模型能够自动提取和利用化合物和靶蛋白的特征,以及它们之间的相互作用模式。

Yelena Guttman 等人基于 DeepChem 框架,构建了一个 CYP3A4 抑制剂预测模型。先基于 lipinski 五原则对库中化合物进行排除,再基于此模型对 FOODB 库中 68,900 个化合物进行 CYP3A4 抑制活性预测,顺利得到了两种新的 CYP3A4 抑制剂。

图片

图片

图 2. 基于 DeepChem 的 CYP3A4 抑制剂预测[2]。

在 KNIME 分析平台 4.0.314 中创建了一个工作流来准备和分析虚拟筛选。

  预测化合物的 ADMET 性质

自 Lipinski 类药五原则提出以来,对先导化合物的 ADMET (吸收、分布、代谢、排泄和毒性) 性质进行早期预测也变得越来越重要。许多研究表明,通过对大量已知化合物的 ADMET 数据进行训练和学习,自动识别和提取化合物特征与性质之间的关系,训练好的深度学习模型可以用来预测新化合物的性质,从而加速药物发现和开发的进程。

Liu 等人利用定向消息传递网络 (directed message passing neural networks, D-MPNN,又称 Chemprop) 对 FOODB 库中化合物进行了 Nrf2 激动活性预测及毒性分析,顺利得到了Nicotiflorin这一兼具 Nrf2 激动活性和安全性的药物,并且在体内外实验中得到了验证[3]。

图片

图片

图片

左右滑动查看更多

图 3. 利用深度学习算法评估药物安全性[3]。

  优化化学合成路线

近年来,人们已经看到人工智能 (AI) 开始为化学合成带来革命性的变化。然而,由于缺乏合适的化学反应表示方式和反应数据的稀缺性,限制了人工智能在反应预测中的广泛应用。深度学习可以通过对大量的化学合成数据进行训练和学习,自动识别和提取合成路线的特征和模式,用来预测新的合成路线的效率和选择性,从而加速新药的开发和生产。

图片

图片

图 4. 深度学习在预测化学反应合成路线上的应用[4]。

Schwaller 等人结合了深度学习网络和符号人工智能来规划化学合成路线。他们开发了一个名为“MoleculeNet”的框架,该框架能够预测反应是否可能成功,并使用这些预测来规划出从起始原料到目标分子的合成路径[5]。

图片

深度学习在虚拟筛选领域中的应用,主要是通过神经网络来预测化合物的活性或性质,从而在虚拟环境中筛选出有潜力的候选药物或材料。

图片

以下是一些常见的深度学习算法在虚拟筛选中的应用:

卷积神经网络 (CNN)CNN 特别适合处理图像数据,如分子结构图。通过识别和提取分子中的特征,如原子和化学键的类型和位置,CNN 可以预测分子的性质和活性。

循环神经网络 (RNN)对于处理序列数据 (如化学分子序列) 的虚拟筛选任务,RNN 特别有用。RNN 可以捕捉分子序列中的长期依赖关系,从而更准确地预测分子的性质。

生成对抗网络 (GAN)GAN 可以生成新的分子结构,这在进行虚拟筛选时非常有用。通过训练 GAN,可以生成具有所需性质的分子,从而大大减少实验的必要性。

图神经网络 (GNN)GNN 特别适合处理图结构数据,如分子图。GNN 可以捕捉分子中原子和化学键之间的关系,从而更准确地预测分子的性质。

Transformer:对于处理长序列数据的虚拟筛选任务,如多步化学反应预测,Transformer 是一个很好的选择。Transformer 可以捕捉序列中的长期依赖关系,从而更准确地预测分子的性质。

图片

今天,小 M 给大家介绍了深度学习在药物研发领域的应用方向及常见算法,作为一种新兴的技术,AI / 深度学习技术在新药研发领域已初见成效,相信随着科学的进步,AI 助力药物筛选一定会在生物医药领域有着更加深远的影响。


图片

Virtual Screening

虚拟筛选 (Virtual Screening, VS) 是基于小分子数据库开展的活性化合物筛选。利用小分子化合物与药物靶标间的分子对接运算,虚拟筛选可快速从几十至上百万分子中,遴选出具有成药性的活性化合物,大大降低实验筛选化合物数量,缩短研究周期,降低药物研发的成本。 

MCE 50K Diversity Library

MCE 50K Diversity Library 由 50,000 种类药化合物组成。依据谷本相似性 (Tanimoto Coefficient) 及聚类算法 (Bemis-Murcko) 对上百万化合物进行筛选以确保结构多样性。本多样性库具备新颖性、类药性,化合物结构类型多样、化学空间丰富,库中化合物可重复供应,是新药研发的有力工具,可以广泛地应用于高通量筛选 (HTS) 和高内涵筛选 (HCS)。

MegaUni 10M Virtual Diversity Library

运用生成式人工智能技术,依托强大的计算能力,基于高质量的 40,662 个分子砌块,匹配合适的反应规则,选择最优的化合物生成策略,去除合成难度高、类药性低、PAINS 等不利化合物后,进一步分析化合物骨架,优选出类药多样性分子组成虚拟库,适用于 AI 药物筛选、大型虚拟筛选等。

MegaUni 50K Virtual Diversity Library

Retatrutide 是胰高血糖素受体 (GCGR)、葡萄糖依赖性促胰岛素多肽受体 (GIP 优选 50,000 个分子组成 MegaUni 50K Virtual Diversity Library。50,000 个分子具有 46,744 种 BMS 分子骨架,每种分子骨架仅包含 1-3 个化合物,化学空间多样,结构新颖,适用于新型先导物发现等。  

图片

图片

图片

[1] Rifaioglu AS, et al. Recent applications of deep learning and machine intelligence on in silico drug discovery: methods, tools and databases. Brief Bioinform. 2019 Sep ;20(5):1878-1912.

[2] Guttman Y, Kerem Z. Dietary Inhibitors of CYP3A4 Are Revealed Using Virtual Screening by Using a New Deep-Learning Classifier. J Agric Food Chem. 2022 Mar ;70(8):2752-2761.

[3] Liu S, et al. Virtual Screening of Nrf2 Dietary-Derived Agonists and Safety by a New Deep-Learning Model and Verified In Vitro and In Vivo. J Agric Food Chem. 2023 May ;71(21):8038-8049.

[4] Li B, et al. A deep learning framework for accurate reaction prediction and its application on high-throughput experimentation data. J Cheminform. 2023 Aug;15(1):72.

[5] Segler MHS, et al. Planning chemical syntheses with deep neural networks and symbolic AI. Nature. 2018 Mar ;555(7698):604-610.

基于模拟退火的计算器 在线运行 访问run.bcjh.xyz。 先展示下效果 https://pan.quark.cn/s/cc95c98c3760 参见此仓。 使用方法(本地安装包) 前往Releases · hjenryin/BCJH-Metropolis下载最新 ,解压后输入游戏内校验码即可使用。 配置厨具 已在2.0.0弃用。 直接使用白菜菊花代码,保留高级厨具,新手池厨具可变。 更改迭代次数 如有需要,可以更改 中39行的数字来设置迭代次数。 本地编译 如果在windows平台,需要使用MSBuild编译,并将 改为ANSI编码。 如有条件,强烈建议这种本地运行(运行可加速、可多次重复)。 在 下运行 ,是游戏中的白菜菊花校验码。 编译、运行: - 在根目录新建 文件夹并 至build - - 使用 (linux)(windows) 运行。 最后在命令行就可以得到输出结果了! (注意顺序)(得到厨师-技法,表示对应新手池厨具) 注:linux下不支持多任务选择 云端编译已在2.0.0弃用。 局限性 已知的问题: - 无法得到最优解! 只能得到一个比较好的解,有助于开阔思路。 - 无法选择菜品数量(默认拉满)。 可能有一定门槛。 (这可能有助于防止这类辅助工具的滥用导致分数膨胀? )(你问我为什么不用其他语言写? python一个晚上就写好了,结果因为有涉及json读写很多类型没法推断,jit用不了,算这个太慢了,所以就用c++写了) 工作原理 采用两层模拟退火来最大化总能量。 第一层为三个厨师,其能量用第二层模拟退火来估计。 也就是说,这套方法理论上也能算厨神(只要能够在非常快的时间内,算出一个厨神面板的得分),但是加上厨神的食材限制工作量有点大……以后再说吧。 (...
### 深度学习中的MCE结构 #### 解释 多类别交叉熵(Multiclass Cross Entropy, MCE)是一种广泛应用于深度学习模型中的损失函数,用于处理多分类问题。该损失函数衡量预测概率分布与实际标签之间的差异。具体来说,对于每一个样本\( i \),如果其真实标签为 \( y_i \) 而模型给出的概率估计向量为 \( p_i \),那么针对这个样本的MCE定义如下: \[ -\sum_{c=1}^{C}{y_{ic}\log(p_{ic})} \] 此处 \( C \) 表示类别总数,而 \( y_{ic} \) 是指示变量,当第 \( c \) 类是正确类别时取值为1,否则为0;\( p_{ic} \) 则代表模型对该类别的预测概率。 这种形式使得只有真正属于某类的数据点会对总误差有所贡献,从而鼓励模型提高对正类别的置信度并降低负类别的得分[^4]。 #### 作用 MCE作为监督信号引导神经网络调整参数以最小化预测输出与目标之间差距。这有助于确保模型能够有效地从输入特征中学习到区分不同类别的模式,并最终实现更精准的分类效果。此外,由于采用了softmax激活函数配合MCE计算方式,还可以保证所有类别的预测概率之和等于1,形成有效的概率分布。 #### 使用场景 - **图像识别**:在大规模图片上训练卷积神经网络来进行物体检测或细粒度分类任务。 - **自然语言处理**:文本分类、情感分析等领域常用此方法评估文档所属的主题或者情绪倾向。 - **语音识别**:将音频片段转换成文字的过程中也需要依赖此类技术来判断发音对应的字符序列。 - **医疗诊断辅助系统**:通过对病患症状描述或其他生物标志物测试结果进行解析,帮助医生做出更加准确可靠的疾病判定。 ```python import torch.nn as nn # 定义一个多类别交叉熵损失实例 loss_fn = nn.CrossEntropyLoss() # 假设我们有一个批次大小为N,类别数为C的情况下的预测张量outputs以及真实的标签labels # outputs.shape -> (N,C), labels.shape -> (N,) loss_value = loss_fn(outputs, labels) print(f"The computed multiclass cross entropy loss is {loss_value.item()}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值