题目:Discovery of deaminase functions by structurebased protein clustering
文献来源: Huang et al., Discovery of deaminase functions by structure-based protein clustering, Cell (2023), https://doi.org/10.1016/j.cell.2023.05.041
代码:
简介:蛋白质功能的阐明及其在生物工程中的开发极大地为生命科学提供了发展。蛋白质挖掘工作通常依赖于氨基酸序列,而不是蛋白质结构。这里描述了使用AlphaFold2根据预测的结构相似性来预测并随后聚类整个蛋白家族。作者选择了脱氨酶蛋白来分析和鉴定了许多以前未知的性质。作者惊讶地发现,ddda样分支中的大多数蛋白质并不是双链DNA脱氨酶。他们设计了最小的单链特异性胞苷脱氨酶,使高效的胞嘧啶碱基编辑器(CBE)能够被包装成一个单一的腺相关病毒(AAV)。重要的是,从这个分支中分析了一种脱氨酶,它在大豆植株中编辑稳定,这是以前CBE无法获得的。这些发现的脱氨酶,基于人工智能辅助的结构预测,极大地扩大了碱基编辑器在治疗和农业应用中的效用。
1.背景介绍
蛋白质的发现和工程设计极大地改变了生命科学。仅基于序列信息的传统酶挖掘,在蛋白质功能的分类和预测和进化轨迹方面非常有效。然而,一维(1D)信息,无论是以核心氨基酸的形式、特定的基序、整体氨基酸序列的身份,还是隐藏的马尔科夫模型(HMMs),都不能完全阐明蛋白质的功能特征。事实上,蛋白质的三维(3D)结构会决定蛋白质的功能。因此,了解蛋白质结构将在蛋白质挖掘和聚类分类过程中为蛋白质功能提供可靠和合理的见解。脱氨酶样蛋白具有非常广泛的生物作用。为了更好地区分和发现具有不同功能的脱氨酶,本文使用AlphaFold2来预测脱氨酶的结构。然后进行结构比较从而生成脱氨酶蛋白的分类树,可以更好地重新预测不同类型的胞苷脱氨酶。使用alphafold2预测的结构,能够比使用一维氨基酸序列更有效地将蛋白质分类为不同的分支。
2.通过蛋白质结构聚类和发现新的胞苷脱氨酶
本文的假设基于蛋白质的三维结构最终决定了其功能,对已知或预测的蛋白质结构的比较和聚类可能是将脱氨酶分类为功能分支的有效方法。因此,作者结合AI辅助的蛋白质结构预测、结构比对和聚类来生成脱氨酶之间的蛋白质分类关系(图1A)。作者从InterPro数据库中选择了238条注释为具有脱氨酶结构域的蛋白序列,并从c-Jun激活结构域结合蛋白(JAB)结构域家族中选择了4条远端外群候选蛋白序列。具体来说,作者从16个脱氨酶家族中随机选择了至少具有100个氨基酸的15个候选蛋白,并使用AlphaFold2来预测它们的蛋白质结构。作者对所有候选蛋白进行了多重结构比对(MSTAs),并基于MSTA结果,生成了反映蛋白质之间整体结构相关性的候选相似性矩阵。然后,作者使用具有算术均值(UPGMA)的非加权对组方法,将这些相似性矩阵组织成一个结构树状图(图1B)。树状图将238个蛋白质聚为20个独特的结构分支,每个分支内的脱氨酶都有不同的保守的蛋白质结构域(图1C和1D)。
即使不使用上下文信息,如保守的基因邻域和结构域结构,也可以生成准确的蛋白质聚类分类。当使用基于结构的层次聚类时,不同的分支反映了独特的结构,这意味着不同的催化功能和性质(图1D)。有趣的是,基于结构的聚类方法比传统的基于一维氨基酸序列的聚类方法在功能相似性排序方面更加稳健和有效。如腺苷脱氨酶(A_deamin,InterPro数据库中的PF02137)-参与嘌呤代谢的酶,在使用基于氨基酸序列的聚类方法时被分成不同的分支,但基于结构的聚类方法都将其分组为一个单一的A_deamin分支(图1B、1C和S1B)。此外,在使用基于结构的聚类时,4个脱氨酶家族(脱氧胞苷酸单磷酸[dCMP]、MafB19、LmjF365940和APOBEC,由InterPro注释)分别被分为两个独立的分支(图1C和1D)。蛋白质结构的比较表明,这四个脱氨酶家族的两个分支都有相当不同的结构,这与它们的InterPro命名和基于序列的分类可能表明的相反(图1D和S1D-S1H)。综上所述,AI辅助的三维蛋白质结构提供了可靠的聚类结果,并且只需要用户的一个氨基酸序列,是生成蛋白质关系的一种方便、有效的策略。
图1.基于AlphaFold2预测结构的蛋白质聚类工作流程。利用AlphaFold2对候选重新注释的结构域序列进行结构预测,然后根据结构相似性进行聚类。然后,在植物和人细胞中实验检测ssDNA和dsDNA胞苷脱氨活性。(B)结构相似性矩阵,反映了16个脱氨酶家族和1个外群的242个预测蛋白(238个胞苷脱氨酶和4个JAB)结构之间的相似性。不同的家族蛋白质用不同的颜色来区分;热图的颜色阴影表示相似性的程度。(C)根据蛋白质结构将蛋白质分为不同的脱氨酶家族,并用不同的颜色模式进行标记。使用Bootstrap R90的节点用圆圈标识。(D)对16个脱氨酶支系的代表性预测结构。
3.酶实验部分内容(非详细解释)
作者通过从每个分支中选择至少5个蛋白质,评估了239个脱氨酶结构域。重要的是,由于用于聚类的核心脱氨酶结构域可能不显示编辑活性,作者扩展了每个脱氨酶序列,以包括来自脱氨酶结构域周围每个相应基因的额外二级结构。在这个实验中,作者证明了使用蛋白质分类的3D结构有助于脱氨酶簇用于碱基编辑器,为开发增强的和定制的精确碱基编辑工具提供了新的机会。
在评估每个分支的脱氨酶时,作者惊讶地发现,从SCP1.201分支中注释的一些脱氨酶能够脱氨ssDNA底物,其中SCP1.201脱氨酶引起了他们的注意,并且对这个酶进行了多种功能的验证。此外,他们还发现新的Ddd蛋白对DddA有不同的编辑偏好。Sdds可以在人类细胞和植物中进行碱基编辑并且具有独特的碱基编辑特性。此外,AlphaFold2结构预测辅助下发现了Sdd蛋白的合理截断。作者还利用基于sdd的cbe对水稻和大豆进行稳健的碱基编辑。具体的实验结果可见原文。
4.结论
与仅由一维氨基酸序列提供的有限信息相比,三维结构信息提供了潜在蛋白质功能的更视觉的信息表示。基于结构的蛋白质挖掘有望成为发现和工程新酶的有用方法。以前,功能基因组学的研究一直受到蛋白质结构的高分辨率分析的成本或传统计算驱动的折叠模拟的低准确性的限制。基于人工智能的高精度蛋白质折叠预测模型和相关数据库为生命科学注入了新的生命。
在这里,作者基于胞苷脱氨酶样超家族的结构预测,对蛋白质分类和蛋白质功能的挖掘进行了概念验证探索。alphafold2预测的结构可靠地将脱氨酶划分为不同的分支,具有不同的蛋白质折叠和催化功能。在此基础上,我们通过识别具有新的和不同的DNA底物的脱氨酶,这反过来又允许设计定制的精确基因组编辑工具。原则上,该策略可应用于任何蛋白质数据集的高通量分类和功能分析。未来的测序工作与结构预测的并行,将大大推进功能蛋白的挖掘、跟踪、分类和设计。
目前只有少数胞苷脱氨酶被用作CBE。仅基于蛋白质工程和定向进化的规范努力有助于编辑特性的多样化;然而,这些努力通常很难建立。使用基于结构的聚类方法,作者发现并提出了一套具有不同特性的脱氨酶,可以在植物和哺乳动物细胞中起作用。在人工智能理性发现和设计的脱氨酶中,作者发现了致密的Sdd7和Sdd6,它们在治疗和农业应用方面都显示出了巨大的前景。Sdd7在所有被测物种中都具有强大的碱基编辑能力,并且比最常用的APOBEC/aid样脱氨酶具有更高的编辑活性。令人惊讶的是,Sdd7能够有效地编辑大豆植株,这一直是之前胞嘧啶碱基编辑的一个主要限制。作者推测,与哺乳动物APOBEC/aid样脱氨酶相比,来自光放线菌的Sdd7可能在适合大豆生长的温度下具有高活性。在分析Sdd6时,这种脱氨酶比其他脱氨酶更小,并且在默认情况下更具特异性,同时保持了较高的目标编辑活性。我们相信,这些新的发现和工程努力将有助于定制的基因组编辑工具的发展,这将更精确和具体的每个治疗或育种应用。
测序方法的进步推动了对新物种和新蛋白质的发现。AI引导下的蛋白质结构预测和分类将为免疫相关蛋白等具有可变序列和低序列保守性的蛋白质分类提供一个新的有效视角。人工智能辅助蛋白质结构预测的出现,结合越来越多的测序工作,将进一步激发新的酶的发现,并使更大的生物工程工作成为可能。
5.工作的局限之处
基于三维结构对齐的分类方法具有巨大的优势,但仍存在一定的局限性。首先,它不适用于具有高序列同源性的蛋白质。对于由snp引起的功能差异,或对于具有高序列同一性的蛋白质,用AlphaFold2或其他结构预测方法很难完全表征这些结构差异。其次,它不适用于依赖于低聚物或多重复合物的蛋白质,或在体内具有活性时具有异相特征的蛋白质。对于具有这些可变动态过程的蛋白质,需要一个分子动力学模拟的组合。最后,它不适用于基于预测方法难以获得精确结构的蛋白质。例如,AlphaFold2并不能为许多孤儿蛋白提供高可信度的预测结果,人们认为随着新算法的发展,这个问题可以得到有效的解决。此外,由于本文的长度和时间的限制,不能充分探索SCP1.201家族和其他家族蛋白中的所有蛋白的性质。然而,在未来的研究中,这些大的未知蛋白家族将会有许多惊喜。
====================================================
因为本人能力有限,为防止语义翻译有误,并未具体分享酶编辑等实验的工作。相关研究领域的朋友可以自行了解。关于文章中使用的聚类工具,个人觉得是一种具有普遍性的方式,可以适用于各类蛋白质的实验研究以及高通量筛选。个人意见,仅供参考。
-------------------------------------------
欢迎点赞收藏转发!
下次见!