AI蛋白质设计学习主线

原创已于 2025-11-10 15:56:11 修改 · 1.1k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #学习 #蛋白质 #序列分析 #计算生物学

于 2025-08-11 21:53:57 首次发布

生信-科研工具+经验同时被 2 个专栏收录

31 篇文章

订阅专栏

生信推文-计算机背景+杂七杂八

7 篇文章

订阅专栏

一，蛋白质设计——序列分析

1.获得同源序列

1)了解不同蛋白质序列库，如UniRef90，UniClust30，Pfam等

2)了解不同工具原理并使用：NCBI BLAST，Jackhmmer，HHblits

3)给定一条蛋白质序列，比对序列库，生成多序列比对（MSA）

从AlphaFold2的经典代码仓库中找到它的生成MSA的代码并学习（alphafold/alphafold/data/tools/jackhmmer.py）

2.对MSA进行频率分析

1)使用python的文本文件操作实现

2)使用python中biopython包实现

3)绘制序列Logo，可视化的展示每个位点的氨基酸频率和保守性

3.序列的同源性计算和进化树的绘制

1)不同同源性的计算方法及应用情景，氨基酸序列的identity和Similarity，BLOSUM62的介绍

2)进化树的绘制

4.基于序列相似性阈值划分训练集和测试集

1)为什么要做？避免数据泄露

2)选择相似性度量方法

3)相似性矩阵的计算

4)划分数据集

5.大规模蛋白质序列的聚类分析和去冗余

1)为什么要做？防止过度学习某一类序列特征，消除序列偏差；也能防止训练过程中数据泄露

2)聚类方法的选择，CD-HIT、MMseq2和Linclust

3)选择代表序列，去冗余

4)实际复现S2ALM这一模型文章中的聚类方法

二，蛋白质设计——结构分析

1.蛋白质结构预测方法

1)从CASP比赛结果来简述蛋白质结构预测方法的发展。

基于能量函数 -> 接触图的应用 -> 端到端的预测结构（AlphaFold2）

2)AlphaFold2的模型相比于以前的方法有什么改进

3)将基于MSA和基于模板的方法整合，使用注意力机制进行MSA信息和模板信息的相互交流

4)以前提取MSA信息为计算协方差矩阵，AlphaFold2创造性的直接将MSA信息作为输入，将图像识别的算法转变成了自然语言处理算法，减少了中间处理过程中的信息损失

5)AlphaFold3相比于AlphaFold2改进了什么，还有什么不足

6)扩展到了多种生物分子的复合物结构预测，包括蛋白质-DNA、蛋白质-RNA、蛋白质-小分子，并使用扩散模型

7)复合物组装与动态预测缺陷，抗体-抗原复合物结构准确度有待提高。

8)运行网页server上的AlphaFold3预测结构

9)如何使用AlphaFold3预测蛋白质的糖基化，不同糖基化的类型的输入方法。

10)AlphaFold3输出结果分析，各项置信度指标的含义，以及如何判断预测的准确度，如pLDDT，ipTM，PTM，PAE

11)本地部署和运行ColabFold，由于AlphaFold3在安装过程中需要下载大量资源，且不能商用

2.蛋白质结构分析和可视化

1)pdb文件的解读，每一行中的内容代表什么含义。

2)用 pymol 可视化蛋白质结构

a)pymol的基础操作讲解

b)如何将实验值投影到结构图的颜色上，如何画出发表文章中好看的图

3)计算蛋白质结构中两个氨基酸的距离

a)使用python的文本文件操作实现

b)使用python中biopython包实现

3.蛋白质结构相关物理性质的计算

1)二级结构的分类和计算

2)溶剂可及表面积（SASA）的讲解及计算

3)蛋白质表面电荷分布的计算

4.结构快速比对工具Foldseek介绍及使用

1)Foldseek原理讲解，3Di字母表，结构信息的序列化编码

2)结构相似性搜索实战，从蛋白质结构数据库中搜索相似结构

3)根据结构相似性阈值聚类

4)聚类输出结果的讲解和处理

三，蛋白质的大语言模型及应用

1.基础知识讲解

1)介绍蛋白质的语言模型（26字母语言模型->20氨基酸字母表，上下文依赖->氨基酸的共进化）

2)为什么要开发蛋白质大语言模型？

1. 相比于结构或功能信息，序列信息更加海量；

2. 蛋白质序列通过进化而来，可以学习蛋白质基本规律，折叠，共进化等

3)模型架构和基础理论：transformer，多头注意力机制，Bert，GPT，T5等

2.基于Bert架构的蛋白质语言模型

1) ESM系列（ESM-1b、ESM-1v、ESM2、ESMC）

2)ESMFold：无需MSA信息的结构预测

3)使用抗体序列库训练的语言模型：Ablang，AntiBERTy

3.类似GPT的生成模型ProGen

1)36层Transformer解码器架构，包含12亿参数

2)引入“控制标签”（如蛋白质家族ID、功能属性）作为输入，生成蛋白质序列空间以外的新的蛋白质序列

3)成功生成新的溶菌酶

4.多模态的蛋白质语言模型ESM3

1)模型架构融合序列，结构和功能信息

2)相比于ESMFold，单体结构预测精度更好

3)基于多模态提示（序列、结构、功能关键词）设计新的蛋白质序列

4)ESM3的安装，生成序列，快速结构预测。

5.蛋白质语言模型的应用和实战演练

1)获得序列embedding以构建下游模型（Cell systmes等文章举例）

2)使用不同的蛋白质语言模型，零样本的预测蛋白质突变效应

3)给定少量的突变效应数据作为训练数据，训练模型，预测新的突变效应值

四，蛋白质设计实战应用（实践）

1.基础知识讲解

1)三类方法在不同程度上探索蛋白质序列空间:

a)蛋白质定向进化（directed evolution）

b)固定蛋白质主链的序列设计（Fix-backbone protein design）

c)蛋白质的从头设计（De novo protein design）

2)关键数据库：RCSB PDB， SCOPe， CATH， UniRef， BFD等

3)常见概念和名词： rotamer， scaffold， motif，domain，backbone，side-chain，apo和holo结构

2.从David baker（2024年因蛋白质设计的贡献获得诺贝尔化学奖）的工作看蛋白质设计方法的发展

1)基于能量函数Rosettta的从头设计，Longxing Cao的Nature文章

2)幻化（Hallucination）生成，将蛋白质三维结构预测模型应用于蛋白质设计

3)ProteinMPNN（从结构生成序列）；

4)LigandMPNN（结合配体的蛋白质设计）；

5)ThermoMPNN（热稳定性优化的蛋白质设计）

6)Rfdiffusion（只设计backbone结构，扩散模型）；

7)Rfdiffusion finetuned by antibody

8)Protien Generator：序列和结构的协同设计

3.其他蛋白质设计方法，了解模型原理，优劣，应用

1)设计结构

ProteinSGM（Nat. Comput. Sci）：结合Rosetta MinMover优化结构

2)设计序列

a)ProGen（Cell Syst.）：对蛋白质功能和家族的可控生成

b)ProtGPT2（Nat. Commun.）：生成多样且符合自然规律的蛋白质序列

3)序列和结构的协同设计

a)Protpardelle（PNAS）：叠加态（superposition state）概念

b)Chroma（Nature）

c)VibeGen：结合蛋白质动力学特征

4.不同蛋白质设计模型的系统比较

1)无条件单体生成：

a)在生成时间、序列与结构的合理性、序列与结构多样性等方面比较

b)方法选择的建议

2)基于motif的TEV蛋白酶的设计：不同方法设计的酶活性比较

5.不同的蛋白质设计方法的实操

1)Rfdiffusion+ProteinMPNN生成序列，AphaFold2筛选序列。

学会各个包的安装，不同参数的选择，结合的hotspot位点选择。

2)计算SAP（Spatial Aggregation Propensity）的值，

选择3-6个氨基酸作为hotspot，即结合位点；这里需要使用Rosetta进行计算，首先将安装rosetta，准备蛋白，再计算每一个氨基酸的SAP值，将SAP数值映射到结构上。选择hotspot位点。

a)Rfdiffusion结构设计，生成~10000个蛋白质主链结构

根据上面挑选得到的hotspot位点

b)ProteinMPNN-FastRelax进行序列设计，每一个主链结构两个对应的序列，共设计~20000个序列，再通过ProteinMPNN-FastRelax设计序列

c)筛选:使用AlphaFold2预测设计结构，预测的置信度pAE<10，预测结构与设计结构的RMSD<1A，从中挑选95个进行实验验证

3)BindCraft——序列生成和筛选的自动化实现

BindCraft相比于Rfdiffusion+ProteinMPNN更加用户友好，一站式设计流程，序列的生成和筛选自动化实现。将讲解其中参数的设计和选择，如过滤序列条件、生成氨基酸的偏好性等

4)Protein Generator、Chroma、Protpardelle生成序列的实现

五，深度学习酶设计实战应用

1.基础知识讲解

酶的过渡态理论，theozyme，fitness landscape，epistasis

2.从Frances H. Arnold（2018年因在酶的定向进化领域的贡献获得诺贝尔化学奖）的工作看酶的定向进化方法的发展

1.传统定向进化实验流程

2.MLDE（Mechine Learning Directed Evolution），学习序列与酶性能之间的映射关系，推荐新的突变组合（PNAS文章）

3.ftMLDE（focused training MLDE），主动学习流程，构建informative的训练数据（Cell Systems文章）

3.酶的从头设计

1.从头设计Diels-Alder催化酶

a)基于Rosetta的Inside-out策略（Science文章）

b)通过Foldit蛋白质折叠游戏改善结构问题（Nat. Biotechnol.文章）；

c)Foldit蛋白质折叠游戏的实践

2.从头设计荧光素酶，Family-wide hallucination，基于该酶家族的结构幻化出新的结构（Nature文章）

3.RFdiffusion+PLACER从头设计丝氨酸水解酶（Science文章）

4.利用预测结构的相似性，挖掘序列的新酶功能（cell文章）

1.InterPro数据库中下载数据

2.TM-score计算结构距离

3.UPGMA结构聚类，画出进化树

4.挑选序列

六，深度学习抗体设计实战

1.抗体基础知识讲解：

1)VDJ重排，germline，CDR区域，表位（epitope/paratope），抗体亲和力成熟，抗体的可开发性等概念介绍

2)不同抗体编号方案（Kabat，Chothia，IMGT）讲解，使用python自动化对抗体序列编号，并识别CDR区域

3)抗体药物开发的基本流程

2.抗体亲和力成熟

1)Efficient evolution，基于序列的语言模型推荐突变点（Nat. Biotechnol.文章）

2)了解语言模型推荐突变点的原理

3)安装package和模型参数

4)运行以推荐突变点

5)Structure evolution，基于结构的语言模型推荐突变点（Science文章）

6)了解inverse folding推荐突变点原理

7)安装package和模型参数

8)DiffAb，扩散模型同时生成CDR区的序列和结构

9)GSK、阿斯利康、诺和诺德等在抗体亲和力成熟上的工作

10)Chai2从头生成抗体

3.Adaptyv EGFR Binder比赛——设计EGFR的更高亲和力binder

1)比赛排名靠前的抗体/蛋白是如何设计的

a)第一轮比赛，排名第一的方法：BindCraft

b)第二轮比赛，排名第一的方法：Cradle，在Cetuximab的基础上，用的LLM，突变了10个FR的氨基酸

c)第二轮比赛，排名第二的方法：对一个纳米抗体进行人源化改造

d)第二轮比赛，排名第三的方法：保留与结合重要的氨基酸，生成其它氨基酸RFdiffusion+inverse folding

2)不同的筛选指标能否正确区分出可表达蛋白和不可表达蛋白、可结合蛋白和不可结合蛋白

3)抗体可开发性优化

4)抗体可开发性优化在药物开发过程中的意义，

5)衡量抗体可开发性要考虑的因素，如免疫原性、自聚集性、结合特异性、稳定性等等

6)抗体性质预测的模型实践，展示在小样本的情景下训练机器学习/深度学习模型

7)数据处理，划分数据集

8)模型构建，将构建两类模型

9)基于特征工程的机器学习模型（随机森林，XGboost，ElasticNet等）；学习根据蛋白质序列和结构信息构建常见特征

10)使用语言模型获得序列embedding的深度学习模型

11)模型训练和评价：绘制训练曲线，训练集和测试集的评价指标随epoch的变化，GridSearchCV交叉验证调参等

12)模型的可解释性，特征重要性分析

参考：https://mp.weixin.qq.com/s/0RWPPt2pmgOvBlymdk0ndA