DrugPython-优快云博客

原创学术速运|反应发展的机器学习策略：向低数据极限发展

大量的反应数据被用来训练这些模型，这与专家化学家通过利用少量相关转化的信息来发现和开发新的反应形成了鲜明的对比。迁移学习和主动学习是两种可以在低数据情况下运行的策略，这可能有助于填补这一空白，并促进使用机器学习来应对现实世界中有机合成中的挑战。这文章介绍了主动学习和迁移学习，并将其与进一步研究的潜在机会和方向联系起来，特别是在化学转化的未来发展领域。文献来源:https://doi.org/10.1021/acs.jcim.3c00577 (JCIM)

2023-07-17 18:50:11 332

原创学术速运|PNAS-蛋白质语言空间中的对比学习预测了药物和蛋白质靶标之间的相互作用

简介：基于序列的药物-靶点相互作用的预测有可能通过补充实验筛选来加速药物的发现。作者开发了一个深度学习模型，ConPLex，成功地利用了预训练的蛋白质语言模型（“PLex”）的发展，并使用了蛋白质锚定的对比共嵌入（“Con”）来超越最先进的方法。ConPLex具有较高的准确性，对未知数据的广泛适应性，以及对诱饵化合物的特异性。此外，ConPLex嵌入是可解释的，可以可视化药物-靶点嵌入空间，并使用嵌入来表征人类细胞表面蛋白的功能。代码：ConPLex.csail.mit.edu.

2023-07-17 18:49:22 468

原创 CASP15比赛的新出的相关任务内容

题目：New prediction categories in CASP15文献来源：Proteins. 2023;1–8.代码：无内容：结构预测关键评估（CASP）实验中的预测类别随着结构建模中需要解决特定问题的需要而变化。在CASP15中，引入了四种新的预测类别：RNA结构、配体-蛋白复合物、低聚结构及其界面的准确性，以及备选构象的集合。本文列出了这些类别的技术规范，并描述了它们在CASP数据管理系统中的集成。1.背景介绍结构预测的关键评估（CASP）是一个成熟的比赛，可以显

2023-07-17 18:48:48 1465

原创 33《Protein Actions Principles and Modeling》-《蛋白质作用原理和建模》中文分享

S (i) = 0表示i位置具有最低可能熵，因此该位置给定类型的氨基酸的完美的保守性（即p（xi）该特定类型氨基酸的=1，所有19种其他类型的氨基酸在i位置为0）。随着时间的推移，蛋白质的进化，它的一些残基会比其他残基更保守。它们可能被打包在蛋白质的天然结构中，这样，当一个残基被一个较小的氨基酸取代时，另一个残基必须被一个较大的残基取代，受到几何结构的限制。在这种情况下，最相近的是A和D,而这的距离为1.这个时候，A和D的之间插入一个新的节点并且命名为a，这个节点与A和D的直接的距离皆为0.5。

2023-07-17 18:48:11 580

原创 Cell|通过AlphaFold2预测的蛋白质结构聚类来发现脱氨酶的功能

如腺苷脱氨酶（A_deamin，InterPro数据库中的PF02137）-参与嘌呤代谢的酶，在使用基于氨基酸序列的聚类方法时被分成不同的分支，但基于结构的聚类方法都将其分组为一个单一的A_deamin分支（图1B、1C和S1B）。蛋白质结构的比较表明，这四个脱氨酶家族的两个分支都有相当不同的结构，这与它们的InterPro命名和基于序列的分类可能表明的相反（图1D和S1D-S1H）。人工智能辅助蛋白质结构预测的出现，结合越来越多的测序工作，将进一步激发新的酶的发现，并使更大的生物工程工作成为可能。

2023-07-17 18:47:39 955

原创学术速运|LEGO-CSM：一种用于蛋白质功能表征的工具

LEGOCSM是一个全面的基于web的方式，通过利用成熟的和健壮的基于图的标签来监督学习模型，使用蛋白质序列和结构信息，以亚细胞定位、酶委员会（EC）数字和基因本体（GO）等形式的对蛋白质功能建模。本文展示了作者的模型的表现与其他方法一样好或更好，在亚细胞定位中，受试者工作特征曲线下面积（ROC AUC）高达0.93，EC高达0.93，在独立盲测中，GO项高达0.81。代码：https://biosig.lab.uq.edu.au/lego_csm。文献来源:Bioinformatics。

2023-07-17 18:47:06 145

原创学术速运|人工智能增强的分子模拟

简介：分子模拟根据基本物理定律模拟粒子的运动，已被应用于从物理和材料科学到生物化学和药物发现的广泛领域。在这篇综述中，作者首先调整了分子模拟和人工智能（AI）之间的关系，并揭示了两者之间的一致性。然后，本文将讨论人工智能平台如何从算法、编程范式甚至硬件的角度创造新的可能性，并为分子模拟提供新的解决方案。为此，本文总结了由人工智能增强的分子模拟的几个代表性应用，包括可微编程和高通量模拟。代码：https://doi.org/10.1021/acs.jctc.3c00214 （JCTC）

2023-07-17 18:46:28 172

原创学术速运|利用transformer蛋白语言模型识别有前途的蛋白质工程序列

简介：蛋白质工程的目标是发现和设计具有目标的、理想的特性的新序列。具体来说，作者使用模型的自注意力图来计算一个承诺评分，该评分根据与特定结合位点的预测交互作用来加权给定序列的相对重要性。在这两种情况下，我们还展示了用于计算承诺评分的自注意力图如何表明蛋白质的哪些区域参与了驱动目标特性的分子间相互作用。最后，本文描述了如何微调transformer蛋白语言模型，以学习目标属性的预测模型，并讨论了在蛋白质工程的背景下，使用知识转移和不使用知识转移进行微调的能力和局限性。文献来源:Proteins. 2023;

2023-07-17 18:45:53 202

原创学术速运|结构诱导预训练

在这里，作者通过分析训练前方法如何在诱导的每个样本潜在空间中施加关系结构来研究这个问题-训练前方法对训练前的样本嵌入之间的距离或几何施加什么约束。对训练前方法的全面回顾表明，这个问题仍然是开放的，尽管理论上的分析表明，理解这种形式的诱导结构的重要性。实证研究跨越三种数据模式和十种快速调整任务的理论分析，告知设计新的训练前方法，并对一套方法实现改进。代码：https://github.com/mmcdermott/structure_inducing_pre-training。

2023-07-13 19:42:09 129

原创学术速运|基于化学知识的外推可解释图模型的反应性能预测

为了缩小丰富的化学领域知识和先进的分子图模型之间的差距，作者报告了一个基于知识的嵌入了数字化的空间和电子信息的图模型。在本研究证明了这种基于知识的图模型实现了对反应产率和立体选择性的良好预测，其外推能力被额外的基于支架的数据分割和使用新催化剂的实验验证所证实。由于局部环境的嵌入，该模型考虑原子水平的解释空间和电子对整体合成性能的影响，这为分子工程的目标合成功能提供了有用的指导。代码：https://github.com/Shuwen-Li/SEMG-MIGNN。

2023-07-13 19:41:27 158

原创 32《Protein Actions Principles and Modeling》-《蛋白质作用原理和建模》中文分享

《Protein Actions Principles and Modeling》-《蛋白质作用原理和建模》本人能力有限，如果错误欢迎批评指正。第八章 Bioinformatics: Insights from Protein Sequences（生物信息学：来自蛋白质序列的见解)-比较序列要从良好的对齐开始我们需要一种确定两个序列之间的相似性的方法。在实践过程中对齐和评分是同时执行的，因为我们希望找到得分最高的对齐。序列比对是一种建立最佳位置对应的过程（根据一些评分系统）-在考虑到

2023-07-13 19:40:55 438

原创学术速运|分子设计中的自适应语言模型训练

最近，掩码语言模型已被应用于自动化突变过程，通过利用大型化合物库来学习常见的化学序列（即使用标记化），并预测重排（即使用掩码预测）。作者通过搜索能够优化启发式指标、药物相似性和可合成性，以及从替代模型中预测的蛋白质结合永恒性的分子，来证明适应性训练的影响。结果表明，与fxed预训练模型相比，自适应策略显著改善了度优化，使语言模型在分子设计任务中的应用。代码：https://code.ornl.gov/candle/mlmol in the adaptive-lm directory。

2023-06-28 19:22:01 207 1

原创学术速运|通过SMILES原子标记化提高化学语言模型结果的质量

本研究表明，传统的SMILES标记化具有一定的局限性，导致标记化无法再现分子的真实性质。为了解决这个问题，他们开发了一个在SMILES中的原子标记化方案，它消除了SMILES标记的一般性质中的歧义。在预测精度和token退化方面，与其他token化和表征方案相比，SMILES原子从基于人工智能的化学模型中生成更高质量的SMILES序列是更有效的方法。作者相信，SMILES中的原子标记化有很大的潜力被广泛的相关科学家社区所采用，因为它为分子性质预测、化学翻译和分子生成模型提供了化学上精确的、量身定制的标记。

2023-06-28 19:21:27 238

原创学术速运|3DFlex：通过低温电子显微镜确定柔性蛋白的结构和运动

简介：柔性大分子的建模是单粒子低温电子显微镜（cryo-EM）中最重要的挑战之一，它有可能阐明结构生物学中的基本问题。从二维图像数据中，3DFlex能够确定高分辨率的3D密度，并提供了一个灵活的蛋白质在其构象景观上的运动的明确构象。实验中，对于大分子机器（三snrnp剪接体复合体，易位核糖体）和小融合蛋白（TRPV1离子通道，αVβ8整合素，SARS-CoV-2 spike），3DFlex学习非刚性分子运动，同时解决移动二级结构元件的细节。

2023-06-28 19:20:53 303

原创学术速运|一个关于药物作用机制的全蛋白质组图谱

简介：抑制细胞对药物的反应对于理解小分子扰动因子的作用机制至关重要。通过检测24小时的蛋白质组的变化，发现了配体诱导的蛋白质表达的变化，并揭示了化合物调节其蛋白质目标的规则，同时确定了假定的二氢叶酸还原酶和烷基酶抑制剂。本文还使用蛋白质-蛋白和化合物-化合物相关网络揭示了几种化合物的作用机制，包括肾上腺素能受体拮抗剂JP1302-发现它破坏了FACT复合物并降解组蛋白H1。通过研究许多具有覆盖广泛化学空间的重叠靶标的化合物，作者将化合物的结构与作用机制联系起来，并强调了文库中分子的靶标药理学。

2023-06-28 19:19:16 193

原创学术速运|实现合理的计算肽设计

简介：多肽在生物学中普遍存在，介导多达40%的蛋白质-蛋白质相互作用，并参与其他细胞功能，如运输和信号转导。它们具有高特异性的结合能力，使它们具有介于小分子和大生物制剂之间的中间性质的很有前途的治疗药物。然而，它们相互作用的瞬态性质限制了结构的数量和可用的结合亲和性的知识，而且它们的灵活性限制了预测这些分子的结构和亲和性的计算管道的成功。幸运的是，实验和计算管道的最新进展为这一领域创造了新的机会。我们相信，在接下来的几年里，这将导致稳健的合理肽设计管道，成功类似于应用于小分子药物发现。

2023-06-28 19:18:42 140

原创学术速运|蛋白配体复杂结构预测的模板引导方法：在CASP15蛋白配体研究中的应用

简介：CASP15增加了一个新的配体预测类别，以促进蛋白质/rna配体建模方法的发展。作者将我们最近开发的模板引导方法应用于蛋白质-配体复杂结构的预测。本文详细分析了他们的预测，并讨论了包括蛋白质构象变化、大而灵活的配体和结合袋中的多种不同的配体在内的挑战。题目：Template-guided method for protein–ligand complex structure prediction: Application to CASP15 protein–ligand studies。

2023-06-28 19:17:49 143

原创学术速运|PointNet-MD-利用深度学习从单个分子构型中快速预测液体结构

简介：分子动力学模拟是理解原子和分子的集体行为及其形成的相的一个不可或缺的工具。然而，为了获得收敛性，需要一个足够长的对已访问过的微状态的记录，这就意味着分子模拟的高计算成本。在这项工作中，作者展示了如何使用基于点云的深度学习策略来快速预测从单个分子构型中的液体的结构性质。我们的深度神经网络架构通过径向分布函数进行探测，利用由模拟、第一原理或实验方法生成的分子/原子构型可以快速了解液体结构。代码：https://github.com/nodameCL/PointNet-RDF-MDTraj。

2023-06-28 19:16:09 172

原创学术速运|MISATO -用于基于结构的药物发现的蛋白质-配体复合物的机器学习数据集

迫切需要高度精确的生物分子-配体相互作用数据集，特别是对于需要大量训练数据的llm。作者提出了MISATO，第一个结合了小分子的量子力学性质和相关的分子动力学模拟约20000个实验蛋白质配体复合物的数据集。我们提供了ML基线模型和简单的Python数据加载器，并旨在围绕MISATO培养一个蓬勃发展的社区，为ML专家提供了一个简单的切入点，而不需要深入的领域专业知识来实现下一代药物发现人工智能模型。代码：https://github.com/t7morgen/misatodataset。

2023-06-25 18:44:04 257

原创学术速运|ESMFold中类天然的蛋白序列幻觉设计

原则上，通过反转这些网络，蛋白质序列可以被设计来实现一个或多个设计目标，如高预测置信度、预测的蛋白质结合，或其他可以用损失函数表示的几何约束。在实践中，使用倒AlphaFold模型设计的序列，称为AFDesign，包含不自然的序列轮廓显示表达不佳，而倒RosettaFold网络已被证明对对抗序列敏感。使用一种称为ESM-Designd的反向ESMFold模型，我们生成的序列比AFDesisgn生成的序列更像天然结构，更有可能表达，但比基于结构的设计方法ProteinMPNN表达的序列更小。

2023-06-25 18:43:31 410

原创 31《Protein Actions Principles and Modeling》-《蛋白质作用原理和建模》中文分享

我们对蛋白质结构的了解从1960年的2人增长到2016年的12万（其中超过10万是由x射线晶体学确定的，1万是由核磁共振确定的，几千种是由低温电子显微镜确定的）。这种方法，以及它的变体（使用大量的蛋白质集和取平均值），是氨基酸替代矩阵的基础（Box 8.1），它可以分配分数来找到最佳的序列比对。其次，对于两个对齐的序列，我们需要计算一个分数，用于表明一个序列与另一个序列的相似程度。然而，一般来说，同源蛋白之间的氨基酸替换频率可能因序列中的一个位点而不同（因此在蛋白质的天然结构中也是不同）。

2023-06-25 18:42:53 349

原创 JACS|阐明酶构象灵活性的AlphaFold2等深度学习及其在设计中的应用

AlphaFold2 and Deep Learning for Elucidating Enzyme Conformational Flexibility and Its Application for Design

2023-06-25 18:42:02 1191

原创学术速运|通过综合计算工作流程（Kin-Cov）合理设计共价激酶抑制剂

通过综合计算工作流程（Kin-Cov）合理设计共价激酶抑制剂

2023-06-06 19:31:00 236

原创学术速运|蛋白质-配体相互作用图：从配体形状的三维相互作用图中学习以提高结合亲和度预测

蛋白质-配体相互作用图：从配体形状的三维相互作用图中学习以提高结合亲和度预测

2023-06-06 19:30:25 583

原创学术速运|pyCHARMM：在Python框架中嵌入CHARMM功能

pyCHARMM：在Python框架中嵌入CHARMM功能

2023-06-06 19:30:14 260

原创 30《Protein Actions Principles and Modeling》-《蛋白质作用原理和建模》中文分享

这个现象来自于一个现象：(1)超过一半的天然氨基酸都是具有疏水性的，因此任何给定的序列都有比较可观的疏水氨基酸残基,(2)因此这些链在水中的时候往往会形成一个疏水性的中心,(3)由此产生的致密性可以有助于稳定那些氢键相连的特定二级结构并且同时可以确保那些致密链的结构。利用(a)蛋白由氢键二级结构构建的原理，(b)蛋白质的核心大多是疏水的，大多排列良好，而(c)稳定的蛋白质结构很少有埋藏电荷，结合蛋白质数据库中许多天然结构的见解，几个研究小组已经创造了人类设计的蛋白质。对于不同的生物体，这个速率是相同的。

2023-06-06 19:29:38 304

空空如也

空空如也