
DrugAI
文章平均质量分 89
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
DrugAI
Fight Disease With Code ! Fight Disease With Data Technology !
药学、医学、化学和生物与计算机和AI交叉的爱好者从业者。
展开
-
Cell Systems | 深度学习开启蛋白质设计新时代
今天为大家介绍的是来自Bruno Correia团队的一篇综述。深度学习领域的迅速进步对蛋白质设计产生了显著影响。最近,深度学习方法在蛋白质结构预测方面取得了重大突破,使我们能够得到数百万种蛋白质的高质量模型。结合用于生成建模和序列分析的新型架构,这些方法在过去几年里显著地革新了蛋白质设计领域,提高了识别新蛋白质序列和结构的准确性和能力。深度神经网络现在能够学习和提取蛋白质结构的基本特征,预测它们...原创 2023-12-15 13:49:59 · 535 阅读 · 0 评论 -
Nat. Mach. Intell. | 通过深度神经网络联合建模多个切片来构建一个三维全生物体空间图谱
今天为大家介绍的是来自Angela Ruohao Wu 和Can Yang团队的一篇论文。空间转录组学(ST)技术正在革新探索组织空间结构的方式。目前,ST数据分析通常局限于单个二维(2D)组织切片,这限制了我们理解在三维(3D)空间中发生的生物过程的能力。在这里,作者介绍了STitch3D,这是一个统一的框架,它整合多个ST切片以重建3D细胞结构。通过联合建模多个切片并将其与单细胞RNA测序数据整合,STitch3D同时识别出具有一致基因表达水平的3D空间区域,并揭示了3D细胞类型分布。。原创 2023-12-14 11:06:24 · 495 阅读 · 0 评论 -
引导扩散模型实现抗体序列与结构共同设计
今天为大家介绍的是来自Amelia Villegas-Morcillo团队的一篇论文。近期,在深度生成方法方面的进展使得抗体序列和结构的共同设计成为可能。该研究致力于解决一个挑战:定制抗体中高度变异的互补性决定区(CDRs),以满足开发性要求。作者将属性指导整合到使用扩散概率模型的抗体设计过程中。这种方法允许在考虑溶解度和折叠稳定性等关键属性的同时,根据抗原结构条件化地设计CDRs。抗体是免疫系统对抗病原体时产生的Y形蛋白质。原创 2023-12-13 00:02:23 · 352 阅读 · 0 评论 -
Sci. Rep. | 一个对任意分子体系实现准确且高效几何深度学习的通用框架
这篇工作是来自纽约城市大学/康奈尔医学院谢磊团队的一篇论文。作者提出了一个通用框架,PAMNet,可以对任意分子体系实现准确且高效的几何深度学习。在小分子性质、RNA三维结构以及蛋白质-配体结合亲和力的预测任务上,PAMNet在准确性和效率方面都优于最先进的基线模型。这些成果不仅展示了PAMNet在模拟分子体系的通用性,而且强调了其在实际分子科学应用中的潜力。背景分子类型和大小的多样性给药物发现、...原创 2023-12-12 08:36:15 · 280 阅读 · 0 评论 -
Nat. Methods | RoseTTAFoldNA准确预测蛋白质-核酸复合体
今天为大家介绍的是来自Frank DiMaio团队的一篇论文。蛋白质-核糖核酸(RNA)和蛋白质-脱氧核糖核酸(DNA)复合体在生物学中扮演着至关重要的角色。尽管近年来在蛋白质结构预测方面取得了显著进展,但预测没有同源已知复合体的蛋白质-核酸复合体的结构仍是一个基本未解决的问题。在这里,作者将RoseTTAFold机器学习蛋白结构预测方法扩展应用,以预测核酸和蛋白质-核酸复合体。原创 2023-12-12 08:36:15 · 676 阅读 · 0 评论 -
Nature | 深度学习解锁细胞显微图像
今天为大家介绍的是来自Michael Eisenstein的一篇报道。深度学习正推动算法的发展,使其能够理解来自各种显微镜技术的图像。大约14年前,计算生物学家Jan Funke在霍华德·休斯医学研究所的贾内利亚研究中心尝试编写算法来从图片中识别神经元,他最初以为这不太难,但结果大大出乎他的预料。计算科学家Anna Kreshuk指出,人类很早就学会了如何“分割”视觉信息,即使在物体相互堆叠或重叠的情况下也能区分出单独的物体。原创 2023-12-11 00:02:00 · 303 阅读 · 0 评论 -
Nature | 化学领域的ChatGPT:人工智能与机器人联合打造新材料
今天为大家介绍的是来自Mark Peplow的一篇文章。目前来自DeepMind的工具预测出近40万种稳定物质,一个自主系统学会了如何在实验室制造这些物质。一个结合机器人技术和人工智能(AI)的自主系统成功创造了全新材料,并公布了其首批发现。这个名为A-Lab的系统,能够设计出各种材料的配方,其中一些可能用于电池或太阳能电池。它能自行完成材料合成并分析产物,整个过程无需人类干预。与此同时,另一个AI系统预测出数十万稳定物质的存在,为A-Lab未来的研究提供了众多候选目标。原创 2023-12-11 00:02:00 · 348 阅读 · 0 评论 -
Cell Systems | 填充式语言建模用于抗体序列设计
今天为大家介绍的是来自Jeffrey J. Gray团队的一篇论文。用于治疗应用的单克隆抗体的发现和优化依赖于大型序列库,但是由于可开发性问题而受到阻碍。基于数百万蛋白质序列训练的生成式语言模型,是按需生成现实且多样化序列的强大工具。作者提出了免疫球蛋白语言模型(IgLM),这是一种用于创建合成抗体库的深度生成式语言模型。与之前利用单向上下文进行序列生成的方法相比,IgLM基于自然语言中的文本填充来构建抗体设计,允许它使用双向上下文重新设计抗体序列中的可变长度区域。原创 2023-12-10 19:10:30 · 219 阅读 · 0 评论 -
Commun. Chem. | 基于变分自编码器的化学潜在空间设计复杂天然产物类似物
今天为大家介绍的是来自Yasubumi Sakakibara团队的一篇论文。化学库是系统性收集的化合物集合。通过化学潜在空间,可以表示这些化学库的结构多样性。化学潜在空间是基于多种分子特征,将化合物结构投射到数学空间的一种方法。这样可以在化合物库内表现出结构多样性,以探索更广泛的化学空间,生成新的药物候选化合物结构。在这项研究中,研究团队开发了一种基于变分自编码器的深度学习方法——NP-VAE。原创 2023-12-09 00:02:47 · 786 阅读 · 0 评论 -
Brief. Bioinform. | FormulationAI:人工智能驱动的新一代药物制剂计算平台
药物制剂设计是药物开发过程中的一个关键环节,涉及到药物的物理、化学特性和最终的释放方式。传统的制剂设计依赖于大量的实验和经验判断,这不仅耗时而且成本高昂。随着人工智能技术的兴起,这个领域面临着一次革新的机遇。FormulationAI平台应运而生,它结合了丰富的药物制剂数据和先进的AI算法,旨在优化药物设计流程,提高效率和准确性,减少对实验的依赖。原创 2023-12-07 00:01:40 · 333 阅读 · 0 评论 -
用于分子发现的语言模型
今天为大家介绍的是来自Jannis Born团队的一篇综述论文。语言模型,尤其是自然语言处理中的Transformers模型,在科学领域的成功应用催生了“科学语言模型”的概念。这些模型专注于小分子、蛋白质或聚合物。在化学领域,语言模型已经开始加速分子发现周期,早期药物发现的有希望的最新发现就是一个证据。在这篇综述中,作者回顾了语言模型在分子发现中的作用,强调了它们的优势,并讨论了它们在从头药物设计、属性预测和反应化学中的弱点。图灵测试于1950年提出,是衡量机器模拟人类行为能力的标准。原创 2023-12-06 10:24:05 · 240 阅读 · 0 评论 -
Cell Systems | 探索蛋白质语言模型的边界
今天为大家介绍的是来自Ali Madani团队的一篇论文。基于注意力机制的模型在蛋白质序列的分类和生成任务中展现出了惊人的成功,这些任务对于人工智能驱动的蛋白质设计至关重要。然而,我们对于大规模模型和数据在有效蛋白质模型开发中所扮演角色的理解仍然不足。作者引入了一套名为ProGen2的蛋白质语言模型,模型的规模扩大到了64亿参数,并且在从基因组、宏基因组和免疫库数据库中提取的超过十亿蛋白质的不同序列数据集上训练。原创 2023-12-05 19:39:11 · 308 阅读 · 0 评论 -
J. Chem. Inf. Model.|基于多模态深度学习预测PPI与调节剂相互作用
通过计算方法预测可以加速PPI药物的筛选和设计。因此,开发了。该文章于2023年12月1日发表于《Journal of Chemical Information Modelling》。PPIs是各种生物过程和疾病的重要组成部分。小分子调节剂是一种能够调节PPI的化合物,它们被视为新型的抗癌、抗病毒和抗微生物的药物候选物。然而,大多数现有的筛选PPI调节剂的计算方法都需要靶标三维结构或参考调节剂作为输入,这限制了它们对新型PPI靶标的适用性。原创 2023-12-03 12:20:13 · 278 阅读 · 0 评论 -
Nat. Mach. Intell. | 通过交互式自然语言对话解释机器学习模型
今天为大家介绍的是来自Dylan Slack团队的一篇论文。人们越来越多地使用机器学习(ML)模型,但模型变得越来越复杂,难以理解。为了理解复杂的模型,研究人员提出了解释模型预测的技术。然而,实际操作中难以使用可解释性方法,因为他们不知道应该选择哪种解释以及如何解释这种解释。在这里,作者通过提出TalkToModel来解决使用可解释性方法的挑战:一个通过自然语言对话解释ML模型的交互式对话系统。机器学习(ML)模型在多个关键领域(例如医疗保健、金融和法律)中越来越多地做出重要决策。原创 2023-12-02 14:54:45 · 172 阅读 · 0 评论 -
Nature | 通过全球宏基因组学揭示功能性暗物质
今天为大家介绍的是来自Nikos C. Kyrpides团队的一篇论文。宏基因组包含了海量多样的蛋白质序列,反映了多种功能和活性。过去,我们通常通过将宏基因组中的序列与参考微生物基因组和那些基因组衍生的蛋白质家族进行比较分析,从而探索这些序列空间。然而,这种方法的局限性在于它只能探索已知的、与参考基因组相关的功能多样性。为了突破这一局限,探索更多未知的功能多样性,作者开发了一种计算方法,可以在不依赖参考基因组的情况下,从宏基因组的序列空间中生成蛋白质家族。原创 2023-11-30 00:02:55 · 260 阅读 · 0 评论 -
Nat. Rev. Chem. | 一份关于用机器学习研究化学问题的评估指导
今天为大家介绍的是来自Tiago Rodrigues团队的一篇论文。机器学习(ML)有望解决化学领域的重大挑战。尽管ML工作流程的适用性极广,但人们通常发现评估研究设计多种多样。目前评估技术和指标的异质性导致难以(或不可能)比较和评估新算法的相关性。最终,这可能延迟化学的大规模数字化,并使方法开发者、实验人员、审稿人和期刊编辑感到困惑。在这篇综述中,作者批判性地讨论了不同类型的基于ML的出版物的方法开发和评估指导原则。科学发现加速的需求为机器学习(ML)的重新崛起敞开了大门。原创 2023-11-27 10:37:04 · 221 阅读 · 0 评论 -
Nat. Mach. Intell. | 预测人工智能的未来:在指数级增长的知识网络中使用基于机器学习的链接预测
今天为大家介绍的是来自Mario Krenn团队的一篇论文。一个能够通过从科学文献中获取洞见来建议新的个性化研究方向和想法的工具,可以加速科学的进步。一个可能受益于这种工具的领域是人工智能(AI)研究,近年来科学出版物的数量呈指数级增长,这使得人类研究者难以跟上进展。在这里,作者使用AI技术来预测AI自身的未来研究方向。科学文献的语料库以越来越快的速度增长。特别是在人工智能(AI)和机器学习(ML)领域,每个月的论文数量都在以大约23个月翻一番的速度指数级增长(见图1)。原创 2023-11-27 10:37:04 · 298 阅读 · 0 评论 -
Chem. Eng. J | 掌控基于ESIPT的AIE效应设计具有单组分白光发射的光学材料
而在聚集态时,由于分子的聚集将会限制TICT,因此能够抑制暗态过程,导致荧光的出现,最终它们将会表现为AIE现象,而不能发生扭曲的分子则是由于它们较好的平面性,在聚集后它们将会由于π-π堆积的现象而导致ACQ的现象。(C)分子1、3、5和7的RDG散点图的可视化图。图1. 化合物1-8的化学结构(A),ToE的计算过程示意图(B),ToE和pKa之间的Pearson相关系数(PCC)(C),增加预测pKa作为特征的最佳模型的预测ToE与实验ToE的图(D)和不包括预测pKa的最佳模型(C)。原创 2023-11-24 00:03:03 · 1368 阅读 · 0 评论 -
Nature | 医学领域,人工智能革命正在酝酿中。它会是什么样子呢?
今天为大家介绍的是来自 Mariana Lenharo的一篇文章。Jordan Perchik 在阿拉巴马大学伯明翰分校开始他的放射学住院医师生涯时,正值他所说的该领域的“人工智能恐慌”达到顶峰。那是在 2018 年,距计算机科学家 Geoffrey Hinton 宣称人们应该停止训练成为放射学家不到两年,因为机器学习工具将很快取代他们。Hinton,有时被称为人工智能(AI)的教父,预测这些系统很快将能够比人更好地读取和解释医学扫描和 X 射线。此后,申请放射学项目的人数大幅下降。原创 2023-11-23 14:40:14 · 133 阅读 · 0 评论 -
Nat. Methods | 深度生成模型在单细胞 RNA 分析中的转录动态建模
今天为大家介绍的是来自Fabian J. Theis & Nir Yosef团队的一篇论文。当前估算 RNA 流速的方法缺乏有效的策略来量化不确定性并确定其对感兴趣系统的整体适用性。在这里,作者介绍了 veloVI(velocity variational inference),这是一个用于估算 RNA 流速的深度生成模型框架。veloVI 学习了基因特异性的 RNA 代谢动态模型,并提供了转录组范围内的流速不确定性量化。原创 2023-11-22 16:26:21 · 220 阅读 · 0 评论 -
Nat. Biotechnol. | 利用深度学习进行蛋白质同源性检测和结构比对
今天为大家介绍的是来自Kyunghyun Cho和Richard Bonneau团队的一篇论文。在生物技术领域,挖掘序列(sequence)、结构(structure)和功能(function)之间的关系,需要更好的方法来比对那些与已经标注的蛋白质序列相似度较低的蛋白质。作者开发了两种深度学习方法来解决这一难题,即TM-Vec和DeepBLAST。TM-Vec允许在大型序列数据库中搜索结构-结构的相似性。它经过训练,能够直接从序列对预测TM分数,作为结构相似性的度量,无需中间计算或解析结构。原创 2023-11-21 10:39:03 · 1696 阅读 · 1 评论 -
Cell Reports Methods | 功能基因组筛选和临床数据的综合分析确定了螺内酯在重症COVID-19中的保护作用...
今天为大家介绍的是来Russ B. Altman, Yuan Luo 和 Le Cong 团队的一篇论文。目前出现了对现有COVID-19治疗方法具有抵抗力并且能够逃避先前疫苗接种的SARS-CoV-2变异,这进一步强调了针对宿主入侵因子的药物的需求。然而,目前缺乏一种系统和迅速地为病毒感染进行宿主靶向药物优先选择的方法。宿主细胞入侵是SARS-CoV-2复制周期中的关键阶段,它决定了新变种的毒性。SARS-CoV-2入侵通常依赖于病毒尖峰蛋白与宿主ACE2之间的结合,以及尖峰蛋白在内源性蛋白酶的作用。原创 2023-11-20 00:01:51 · 315 阅读 · 0 评论 -
Nat. Commun. | 一个用于在科学出版物中进行化学结构的自动光学识别、分割和识别的开放平台...
今天为大家介绍的是来自Christoph Steinbeck团队的一篇论文。近几十年来,描述化学结构的出版物数量稳步增加。然而,目前大多数已发布的化学信息并未以机器可读的形式出现在公共数据库中。自动化信息提取的过程仍然是一个挑战,需要减少手动干预,特别是在挖掘化学结构图时。作为一个开源平台,DECIMER.ai(Deep lEarning for Chemical IMagE Recognition)充分利用了深度学习、计算机视觉和自然语言处理的最新进展,旨在自动分割、分类和翻译印刷文献中的化学结构图。原创 2023-11-20 00:01:51 · 161 阅读 · 0 评论 -
Nat. Rev. Drug Discov. | 人工智能在天然产物药物发现领域的应用
今天为大家介绍的是来自Gerard J. P. van Westen, Anna K. H. Hirsch, Roger G. Linington, Serina L. Robinson和Marnix H. Medema团队的一篇药物发现综述。计算组学技术的发展为我们提供了新的方法工具,用以挖掘天然产物的隐藏多样性,为药物发现提供新的可能性。与此同时,人工智能方法,如机器学习,也在计算药物设计领域取得了令人兴奋的发展,促进了生物活性预测和针对感兴趣的分子靶标的从头药物设计。原创 2023-11-19 17:44:37 · 466 阅读 · 0 评论 -
CRISPR安全吗?基因组编辑接受首次FDA审查
今天为大家介绍的是来自Heidi Ledford的一篇新闻。美国监管机构的顾问将检查一种基于CRISPR的镰状细胞病治疗方法的安全性档案。基于CRISPR-Cas9基因组编辑系统的治疗方法可能成为第一个获得美国食品和药物管理局(FDA)批准的此类治疗方法。但这种旨在缓解痛苦血液状况的治疗方法首先必须接受该机构及其顾问的严格审查。在10月31日,美国食品和药物管理局(FDA)的外部顾问会议讨论一种针对镰状细胞病的DNA改变治疗方法,镰状细胞病是一种可能导致血细胞变形并有时引起严重痛苦的遗传病。原创 2023-11-19 17:44:37 · 89 阅读 · 0 评论 -
J. Chem. Inf. Model. | 使用GRID描述符进行深度学习预测血脑屏障透过性
今天为大家介绍的是来自Simon Cross团队的一篇论文。深度学习方法能够自动从输入数据中提取相关特征并捕捉输入和输出之间的非线性关系。在这项工作中,作者提出了基于GRID的AI(GrAId)描述符,这是对GRID MIFs的简单修改,使它们能够与卷积神经网络(CNNs)结合使用,以建立一个作者称之为DeepGRID的旋转、构象和对齐无关的深度学习模型。这是首次将GRID MIFs与CNNs结合在深度学习方法中使用。原创 2023-11-18 16:48:20 · 615 阅读 · 0 评论 -
在个性化医疗时代定义罕见病
目前,罕见病条件通常是基于低患病率来定义的。此外,这些定义可能包括定性指标,如疾病严重程度的方面,包括疾病是否具有生命威胁性以及是否存在治疗方法。此外,有些病症的定义也可能与它们被给予的研究关注程度相关,比如被忽视或研究不足的疾病被认定为罕见病。特定群体的罕见病可以根据临床病理特征进行资格认定,而在某些情况下,某个地区的罕见病在另一个地区可能不符合罕见病的定义,这可能受到传染因子的影响或当地人口的特定族群特征的影响。原创 2023-11-16 14:56:08 · 93 阅读 · 0 评论 -
ICLR2023 | 基于能量受限扩散的可扩展transformer
今天为大家介绍的是来自严骏驰教授团队的一篇论文。现实世界数据生成通常错综复杂,与标准学习方法中的独立同分布数据假设相去甚远,这对于揭示学习实例表示的几何结构构成了挑战。为此,作者引入了一种能量受限扩散模型,通过它们的相互作用将数据集中的实例信息相互传递。实验证明了作者的模型在各种任务中作为通用编码器的广泛适用性,具有出色的性能。现实世界的数据是从复杂的交互过程中生成的,其潜在原理通常是未知的。这种性质与标准表示学习范式的常见的数据是独立同分布的假设不同。原创 2023-11-14 10:13:32 · 264 阅读 · 0 评论 -
Nat. Methods | 生物图像分析的未来:心智与机器之间的对话
这项假设的前提是,我们对世界的隐性知识包含在我们的感知总和中,可以推广到尚未见过的图像,即使是由我们的显微镜获取的图像也是如此。这些LLM是人工智能的一个新趋势的一部分:大型基础模型,它们需要数百万美元的成本在大规模的图像、文本、声音数据集或这些数据的组合上进行训练。在最理想和最具未来感的情景下,生物图像分析将变成一种思维和机器之间的对话:一个交替进行的过程,包括输入图像、手动注释、处理后的图像、命令、问题和回答。幸运的是,最近对这些模型的训练的改进已经使得在更加适度的硬件上训练和使用这些模型成为可能。原创 2023-11-14 10:13:32 · 107 阅读 · 0 评论 -
RNA模型可以帮助发现疾病机制和候选药物
今天为大家介绍的是来自Tehmina Masud, Amit Deshwar, Shreshth Gandhi, Brendan J. Frey团队的一篇论文。精确地对RNA生物学进行建模和预测一直是一个长期存在的挑战,对于变异解释和定制治疗的制定具有重要的临床意义。作者提出了一个RNA生物学的基础模型,名为“BigRNA”,它经过了数千个基因组匹配数据集的训练,可以从DNA序列预测组织特异性的RNA表达、剪接、microRNA位点以及RNA结合蛋白的特异性。原创 2023-11-12 08:31:05 · 216 阅读 · 0 评论 -
J. Chem. Theory Comput. | AI驱动的柔性蛋白-小分子复合物建模
今天为大家介绍的是来自陈语谦教授团队发表在Journal of Chemical Theory and Computation的论文,“Equivariant Flexible Modeling of the Protein−Ligand Binding Pose with Geometric Deep Learning”,博士生董铁君为第一作者。该文提出了一种新的AI驱动的蛋白-小分子复合物结构...原创 2023-11-11 00:01:38 · 934 阅读 · 0 评论 -
PNAS | 蛋白质结构预测屈服于机器学习
今天为大家介绍的是来自James E. Rothman的一篇短文。今年的阿尔伯特·拉斯克基础医学研究奖表彰了AlphaFold的发明,这是蛋白质研究历史上的一项革命性进展,首次提供了凭借序列信息就能够准确预测绝大多数蛋白质的三维氨基酸排列的实际能力。这一非凡的成就是由Demis Hassabis、John Jumper以及他们在Google DeepMind和其他合作者的同事们共同取得的,它建立在几十年的实验性蛋白质结构确定(结构生物学)和多种融合生物启发的统计方法的渐进发展基础之上。原创 2023-11-10 00:15:42 · 443 阅读 · 0 评论 -
Nat. Med. | 成年人的城市生活环境对心理健康的影响
今天为大家介绍的是来自Jiayuan Xu和Gunter Schumann团队的一篇论文。城市居民暴露于许多可能相互结合和相互作用的环境因素,这些因素可能影响心理健康。目前尚未有工作尝试建模城市生活的复杂实际暴露与大脑和心理健康之间的关系,以及这如何受遗传因素调节。利用来自英国生物库(UK Biobank)的156,075名参与者的数据,作者研究了研究城市环境与精神病症状之间的关系。全球超过50%的人口居住在城市地区;到2050年,将有三分之二的人口居住在城市。原创 2023-11-09 11:12:40 · 297 阅读 · 0 评论 -
Nat. Med. | 基于视觉和语言的基础模型,用于病理图像分析
今天为大家介绍的是来自James Zou 团队的一篇论文。公开可用的医学图像缺乏注释,成为计算研究和教育创新的主要障碍。与此同时,许多医生在医学Twitter等公共论坛上分享了匿名化的图像和大量知识。在这里,作者利用这些群体平台来策划OpenPath,这是一个包含208,414张病理图像与自然语言描述配对的大型数据集。通过开发病理语言-图像预训练(PLIP)来展示这个数据资源的价值,这是一个具有图像和文本理解能力的多模式人工智能,它在OpenPath上进行了训练。原创 2023-11-08 12:46:30 · 370 阅读 · 0 评论 -
语言模型能安全的回答眼科问题吗?
今天为大家介绍的是来自Sophia Y. Wang团队的一篇论文。像ChatGPT这样的大型语言模型(LLMs)似乎能够执行各种任务,包括回答患者的眼部护理问题,但尚未与眼科医生进行直接比较评估。目前仍不清楚LLM生成的建议是否准确、合适和安全,适用于眼科患者。近年来,大型语言模型(LLMs)已经彻底改革了自然语言处理,帮助计算机与文本和口头语言进行交互,就像人类一样,从而创造出聊天机器人。这些模型,包括BERT和GPT-3,在大量文本数据上进行训练,并在文本摘要或回答查询等自然语言处理任务上表现出色。原创 2023-11-07 07:01:18 · 130 阅读 · 0 评论 -
Nature | 从头设计具有超螺旋匹配的模块化肽结合蛋白质
在此,受自然和重组蛋白质-肽系统的启发,作者设计由重复单元组成的蛋白质,这些蛋白质与具有重复序列的肽结合,蛋白质和肽的重复单元之间具有一对一的对应关系。文章的研究表明,通过匹配重复蛋白和重复肽构象的超螺旋参数,并在匹配的蛋白和肽重复之间引入特定的氢键和疏水作用,可以设计模块化蛋白,这些蛋白以高亲和力和特异性地结合到扩展肽上。第一个挑战对于模块化和可扩展的序列识别至关重要:如果蛋白质中的单个重复单元将以相同的方向结合到肽上的单个重复单元,那么蛋白质和肽上的重复单元的几何相位必须是兼容的。原创 2023-05-01 00:01:48 · 624 阅读 · 0 评论 -
揭秘PLNet:用泊松对数正态图网络分析助力单细胞RNA测序数据处理大突破
今天我们介绍一篇来自北京大学数学科学学院的肖飞轶、唐俊杰发表在NeurIPS 2022会议上的工作,该文章研究了用于计数数据的图形模型估计方法,应用于单细胞基因网络分析。文章介绍了PLN图形模型的概念及其在单细胞基因调控网络分析中的应用。研究表明,该图形模型能够较好地解释单细胞基因表达数据,有助于揭示基因网络的调控机制。文章还探讨了该模型的应用前景和改进方向。背景介绍高斯图模型已在许多不同领域广泛应用于直接交互推理。然而,在一些现代应用中,如单细胞RNA测序(scRNA-seq)研究,观察到的原创 2023-05-02 00:02:27 · 739 阅读 · 0 评论 -
Science | 利用强化学习进行蛋白质的自上而下设计
作者建立了一个树搜索,每个步骤中都在不断增长的链的N端或C端添加一个短的蛋白质片段。给定单体中螺旋的长度和数量以及总体组装体的大小的规格,作者从一个短的螺旋片段开始,在指定的上限距离内随机放置,随机取向,初始化了数百万条MCTS轨迹,并为每个轨迹执行了10,000次迭代,以生成大量多样化的结构。MCTS方法在理论测试中生成了紧密填充的二十面体组装体,这些组装体跨越了与天然和先前的新生二十面体不同的结构空间,比以前描述的任何蛋白质二十面体都要短,并且孔隙度可与进化生成的密集填充的衣壳相媲美(图1D)。原创 2023-05-02 00:02:27 · 698 阅读 · 0 评论 -
GeneGPT 利用生物医学信息工具增强大型语言模型
作者将提出的GeneGPT方法与各种基准进行比较,包括基于GPT的通用领域LLMs,如GPT-2、GPT-3和ChatGPT,以及基于生物医学领域的GPT-2大小的LLMs,如BioGPT和BioMedLM,以及New Bing,这是一种检索增强的LLM,可以访问Bing搜索引擎检索到的相关网页。基因组位置任务:GeneGPT还在所有基因组位置任务上取得了最先进的性能,包括一次性基因SNP关联任务(1.00准确率),以及零次基因位置任务(0.62准确率)和零次SNP位置任务(1.00准确率)。原创 2023-05-03 00:02:55 · 553 阅读 · 0 评论 -
ICLR2023 | 基于几何结构预训练的蛋白质表示学习
为了填补这一差距,最近的研究利用大量未标记的蛋白质序列数据来学习蛋白质的有效表示,然而这些方法没有利用可用的蛋白质结构信息,而蛋白质结构已被证明是蛋白质功能的决定因素。通过多个基准任务的全面实验验证,文章中的模型在从头开始训练时效果优于以前的编码器,并且在使用更少的数据进行预训练的情况下实现堪比甚至超越最先进的基线方法的效果。需要注意的是,作者的模型是在不到100万个结构的数据集上进行预训练的,而所有基于序列的预训练基线都是在百万或十亿级别的序列数据库上进行预训练的。这证明了作者预训练策略的有效性。原创 2023-05-04 00:01:27 · 1669 阅读 · 0 评论