AI蛋白质设计学习主线

一,蛋白质设计——序列分析

1.获得同源序列

1)了解不同蛋白质序列库,如UniRef90,UniClust30,Pfam等

2)了解不同工具原理并使用:NCBI BLAST,Jackhmmer,HHblits

3)给定一条蛋白质序列,比对序列库,生成多序列比对(MSA)

从AlphaFold2的经典代码仓库中找到它的生成MSA的代码并学习(alphafold/alphafold/data/tools/jackhmmer.py)

2.对MSA进行频率分析

1)使用python的文本文件操作实现

2)使用python中biopython包实现

3)绘制序列Logo,可视化的展示每个位点的氨基酸频率和保守性

3.序列的同源性计算和进化树的绘制

1)不同同源性的计算方法及应用情景,氨基酸序列的identity和Similarity,BLOSUM62的介绍

2)进化树的绘制

4.基于序列相似性阈值划分训练集和测试集

1)为什么要做?避免数据泄露

2)选择相似性度量方法

3)相似性矩阵的计算

4)划分数据集

5.大规模蛋白质序列的聚类分析和去冗余

1)为什么要做?防止过度学习某一类序列特征,消除序列偏差;也能防止训练过程中数据泄露

2)聚类方法的选择,CD-HIT、MMseq2和Linclust

3)选择代表序列,去冗余

4)实际复现S2ALM这一模型文章中的聚类方法

二,蛋白质设计——结构分析

1.蛋白质结构预测方法

1)从CASP比赛结果来简述蛋白质结构预测方法的发展。

基于能量函数 -> 接触图的应用 -> 端到端的预测结构(AlphaFold2)

2)AlphaFold2的模型相比于以前的方法有什么改进

3)将基于MSA和基于模板的方法整合,使用注意力机制进行MSA信息和模板信息的相互交流

4)以前提取MSA信息为计算协方差矩阵 ,AlphaFold2创造性的直接将MSA信息作为输入,将图像识别的算法转变成了自然语言处理算法,减少了中间处理过程中的信息损失

5)AlphaFold3相比于AlphaFold2改进了什么,还有什么不足

6)扩展到了多种生物分子的复合物结构预测,包括蛋白质-DNA、蛋白质-RNA、蛋白质-小分子,并使用扩散模型

7)复合物组装与动态预测缺陷,抗体-抗原复合物结构准确度有待提高。

8)运行网页server上的AlphaFold3预测结构

9)如何使用AlphaFold3预测蛋白质的糖基化,不同糖基化的类型的输入方法。

10)AlphaFold3输出结果分析,各项置信度指标的含义,以及如何判断预测的准确度,如pLDDT,ipTM,PTM,PAE

11)本地部署和运行ColabFold,由于AlphaFold3在安装过程中需要下载大量资源,且不能商用

2.蛋白质结构分析和可视化

1)pdb文件的解读,每一行中的内容代表什么含义。

2)用 pymol 可视化蛋白质结构

a)pymol的基础操作讲解

b)如何将实验值投影到结构图的颜色上,如何画出发表文章中好看的图

3)计算蛋白质结构中两个氨基酸的距离

a)使用python的文本文件操作实现

b)使用python中biopython包实现

3.蛋白质结构相关物理性质的计算

1)二级结构的分类和计算

2)溶剂可及表面积(SASA)的讲解及计算

3)蛋白质表面电荷分布的计算

4.结构快速比对工具Foldseek介绍及使用

1)Foldseek原理讲解,3Di字母表,结构信息的序列化编码

2)结构相似性搜索实战,从蛋白质结构数据库中搜索相似结构

3)根据结构相似性阈值聚类

4)聚类输出结果的讲解和处理

三,蛋白质的大语言模型及应用

1.基础知识讲解

1)介绍蛋白质的语言模型(26字母语言模型->20氨基酸字母表,上下文依赖->氨基酸的共进化)

2)为什么要开发蛋白质大语言模型?

1. 相比于结构或功能信息,序列信息更加海量;

2. 蛋白质序列通过进化而来,可以学习蛋白质基本规律,折叠,共进化等

3)模型架构和基础理论:transformer,多头注意力机制,Bert,GPT,T5等

2.基于Bert架构的蛋白质语言模型

1) ESM系列(ESM-1b、ESM-1v、ESM2、ESMC)

2)ESMFold:无需MSA信息的结构预测

3)使用抗体序列库训练的语言模型:Ablang,AntiBERTy

3.类似GPT的生成模型ProGen

1)36层Transformer解码器架构,包含12亿参数

2)引入“控制标签”(如蛋白质家族ID、功能属性)作为输入,生成蛋白质序列空间以外的新的蛋白质序列

3)成功生成新的溶菌酶

4.多模态的蛋白质语言模型ESM3

1)模型架构融合序列,结构和功能信息

2)相比于ESMFold,单体结构预测精度更好

3)基于多模态提示(序列、结构、功能关键词)设计新的蛋白质序列

4)ESM3的安装,生成序列,快速结构预测。

5.蛋白质语言模型的应用和实战演练

1)获得序列embedding以构建下游模型(Cell systmes等文章举例)

2)使用不同的蛋白质语言模型,零样本的预测蛋白质突变效应

3)给定少量的突变效应数据作为训练数据,训练模型,预测新的突变效应值

四,蛋白质设计实战应用(实践)

1.基础知识讲解

1)三类方法在不同程度上探索蛋白质序列空间:

a)蛋白质定向进化(directed evolution)

b)固定蛋白质主链的序列设计(Fix-backbone protein design)

c)蛋白质的从头设计(De novo protein design)

2)关键数据库:RCSB PDB, SCOPe, CATH, UniRef, BFD等

3)常见概念和名词: rotamer, scaffold, motif,domain,backbone,side-chain,apo和holo结构

2.从David baker(2024年因蛋白质设计的贡献获得诺贝尔化学奖)的工作看蛋白质设计方法的发展

1)基于能量函数Rosettta的从头设计,Longxing Cao的Nature文章

2)幻化(Hallucination)生成,将蛋白质三维结构预测模型应用于蛋白质设计

3)ProteinMPNN(从结构生成序列);

4)LigandMPNN(结合配体的蛋白质设计);

5)ThermoMPNN(热稳定性优化的蛋白质设计)

6)Rfdiffusion(只设计backbone结构,扩散模型);

7)Rfdiffusion finetuned by antibody

8)Protien Generator:序列和结构的协同设计

3.其他蛋白质设计方法,了解模型原理,优劣,应用

1)设计结构

ProteinSGM(Nat. Comput. Sci):结合Rosetta MinMover优化结构

2)设计序列

a)ProGen(Cell Syst.):对蛋白质功能和家族的可控生成

b)ProtGPT2(Nat. Commun.):生成多样且符合自然规律的蛋白质序列

3)序列和结构的协同设计

a)Protpardelle(PNAS):叠加态(superposition state)概念

b)Chroma(Nature)

c)VibeGen:结合蛋白质动力学特征

4.不同蛋白质设计模型的系统比较

1)无条件单体生成:

a)在生成时间、序列与结构的合理性、序列与结构多样性等方面比较

b)方法选择的建议

2)基于motif的TEV蛋白酶的设计:不同方法设计的酶活性比较

5.不同的蛋白质设计方法的实操

1)Rfdiffusion+ProteinMPNN生成序列,AphaFold2筛选序列。

学会各个包的安装,不同参数的选择,结合的hotspot位点选择。

2)计算SAP(Spatial Aggregation Propensity)的值,

选择3-6个氨基酸作为hotspot,即结合位点;这里需要使用Rosetta进行计算,首先将安装rosetta,准备蛋白,再计算每一个氨基酸的SAP值,将SAP数值映射到结构上。选择hotspot位点。

a)Rfdiffusion结构设计,生成~10000个蛋白质主链结构

根据上面挑选得到的hotspot位点

b)ProteinMPNN-FastRelax进行序列设计,每一个主链结构两个对应的序列,共设计~20000个序列,再通过ProteinMPNN-FastRelax设计序列

c)筛选:使用AlphaFold2预测设计结构,预测的置信度pAE<10,预测结构与设计结构的RMSD<1A,从中挑选95个进行实验验证

3)BindCraft——序列生成和筛选的自动化实现

BindCraft相比于Rfdiffusion+ProteinMPNN更加用户友好,一站式设计流程,序列的生成和筛选自动化实现。将讲解其中参数的设计和选择,如过滤序列条件、生成氨基酸的偏好性等

4)Protein Generator、Chroma、Protpardelle生成序列的实现

五,深度学习酶设计实战应用

1.基础知识讲解

酶的过渡态理论,theozyme,fitness landscape,epistasis

2.从Frances H. Arnold(2018年因在酶的定向进化领域的贡献获得诺贝尔化学奖)的工作看酶的定向进化方法的发展

1.传统定向进化实验流程

2.MLDE(Mechine Learning Directed Evolution), 学习序列与酶性能之间的映射关系,推荐新的突变组合(PNAS文章)

3.ftMLDE(focused training MLDE),主动学习流程,构建informative的训练数据(Cell Systems文章)

3.酶的从头设计

1.从头设计Diels-Alder催化酶

a)基于Rosetta的Inside-out策略(Science文章)

b)通过Foldit蛋白质折叠游戏改善结构问题(Nat. Biotechnol.文章);

c)Foldit蛋白质折叠游戏的实践

2.从头设计荧光素酶,Family-wide hallucination,基于该酶家族的结构幻化出新的结构(Nature文章)

3.RFdiffusion+PLACER从头设计丝氨酸水解酶(Science文章)

4.利用预测结构的相似性,挖掘序列的新酶功能(cell文章)

1.InterPro数据库中下载数据

2.TM-score计算结构距离

3.UPGMA结构聚类,画出进化树

4.挑选序列

六,深度学习抗体设计实战

1.抗体基础知识讲解:

1)VDJ重排,germline,CDR区域,表位(epitope/paratope),抗体亲和力成熟,抗体的可开发性等概念介绍

2)不同抗体编号方案(Kabat,Chothia,IMGT)讲解,使用python自动化对抗体序列编号,并识别CDR区域

3)抗体药物开发的基本流程

2.抗体亲和力成熟

1)Efficient evolution,基于序列的语言模型推荐突变点(Nat. Biotechnol.文章)

2)了解语言模型推荐突变点的原理

3)安装package和模型参数

4)运行以推荐突变点

5)Structure evolution,基于结构的语言模型推荐突变点(Science文章)

6)了解inverse folding推荐突变点原理

7)安装package和模型参数

8)DiffAb,扩散模型同时生成CDR区的序列和结构

9)GSK、阿斯利康、诺和诺德等在抗体亲和力成熟上的工作

10)Chai2从头生成抗体

3.Adaptyv EGFR Binder比赛——设计EGFR的更高亲和力binder

1)比赛排名靠前的抗体/蛋白是如何设计的

a)第一轮比赛,排名第一的方法:BindCraft

b)第二轮比赛,排名第一的方法:Cradle,在Cetuximab的基础上,用的LLM,突变了10个FR的氨基酸

c)第二轮比赛,排名第二的方法:对一个纳米抗体进行人源化改造

d)第二轮比赛,排名第三的方法:保留与结合重要的氨基酸,生成其它氨基酸RFdiffusion+inverse folding

2)不同的筛选指标能否正确区分出可表达蛋白和不可表达蛋白、可结合蛋白和不可结合蛋白

3)抗体可开发性优化

4)抗体可开发性优化在药物开发过程中的意义,

5)衡量抗体可开发性要考虑的因素,如免疫原性、自聚集性、结合特异性、稳定性等等

6)抗体性质预测的模型实践,展示在小样本的情景下训练机器学习/深度学习模型

7)数据处理,划分数据集

8)模型构建,将构建两类模型

9)基于特征工程的机器学习模型(随机森林,XGboost,ElasticNet等);学习根据蛋白质序列和结构信息构建常见特征

10)使用语言模型获得序列embedding的深度学习模型

11)模型训练和评价:绘制训练曲线,训练集和测试集的评价指标随epoch的变化,GridSearchCV交叉验证调参等

12)模型的可解释性,特征重要性分析

参考:https://mp.weixin.qq.com/s/0RWPPt2pmgOvBlymdk0ndA

<think>嗯,我收到了一个关于人工智能导论大作业格式要求或模板的查询。看起来用户可能是一位正在准备课程作业的学生。让我仔细分析这个需求。用户主要提到了三个引用来源。引用[1]是一个学生的亲身经历,提到了人工智能导论论文的结构框架和注意事项。引用[2]是课程教学者的反馈,包含了大作业要求的关键点。引用[3]则是一份通用计算机导论模板,虽然不直接相关,但提供了学术论文的通用格式参考。从这些信息中,我发现用户需要的核心是具体可操作的大作业格式指导。引用[1]特别有价值,因为它明确列出了论文的主要章节:定义、发展历史、原理、应用、研究热点和挑战。这应该作为格式建议的基础框架。我准备设计一个层次清晰的响应。首先会介绍典型的学术论文格式,包括摘要、引言等基本要素。然后专门说明人工智能导论课程论文的特有部分,比如技术原理和应用案例。接着会强调格式规范细节,如页数限制和引用格式。最后提供实用建议,包括参考文献选择和抄袭注意事项。考虑到用户可能是第一次写这类作业,我会建议一个具体的分段结构(摘要到结论共七个部分),同时保持灵活性,说明各部分权重可根据主题调整。特别要提醒用户注意引用[2]强调的"专业结合"要求,这可能关系到评分标准。需要强调两个注意事项:一是必须遵守字数或页数限制(参考通用模板的3500字提示),二是避免抄袭(引用[1]的Ctrl+C/V玩笑实际是重要警告)。最后建议用户直接参考课程大纲或往届范文是最可靠的方法。</think> 以下是根据引用内容整理的人工智能导论大作业格式要求与参考建议,结合学术规范和课程特点归纳而成: --- ### 📄 **一、基础格式规范**(参考引用[1][3]) 1. **学术论文结构** ```markdown 封面(课程名/姓名/学号) → 摘要(200-300字) → 目录 → 正文 → 参考文献 → 附录(可选) ``` 2. **正文核心框架**(重点参考引用[1]) ```markdown ## 一、人工智能的定义 ## 二、发展历史脉络 ## 三、技术原理(如机器学习基础算法) ## 四、典型应用场景(医疗/交通/教育等) ## 五、最新研究热点(如大模型、伦理问题) ## 六、挑战与未来趋势 ``` --- ### 📝 **二、关键内容要求**(综合引用[1][2]) 1. **跨学科结合** 若为土木等非计算机专业(如引用[2]),需在**应用章节**添加本专业交叉案例(例:*AI在建筑结构优化中的算法应用*)✅ 2. **技术深度把控**(引用[1]隐含要求) - 避免纯科普叙述,需包含**至少1个技术细节分析**(如监督学习流程/神经网络结构图解) - 公式示例:简单算法可标注为行内公式($y = w^Tx + b$),复杂模型用独立公式块: $$ \nabla J(\theta) = \frac{1}{m} \sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)})x^{(i)} $$ --- ### ⚠️ **三、格式注意事项** | 项目 | 要求 | 参考来源 | |---------------|--------------------------|--------------| | **篇幅** | 建议3000-5000字 | 引用[3]类比 | | **引用规范** | 文末参考文献≥5篇,含近3年论文 | 引用[1]示范 | | **附录** | 代码/数据集需另附说明 | 引用[2]隐含 | | **查重** | 需声明原创性(引用[1]警示⚠️)| | --- ### 💡 **四、模板优化建议** 1. **对比式结构**(适用于展示类作业) ```markdown 传统方法 → AI解决方案 → 效能对比表格 ``` *示例:AlphaFold vs 传统蛋白质结构预测耗时对比* 2. **热点聚焦式**(适合短论文) 以**单一技术突破**为主线(如大语言模型),贯穿定义→原理→社会影响分析 > 📌 关键提示:直接向授课教师索取**往届范文**或**评分标准表**(引用[2]显示教师通常提供),比通用模板更精准✅ --- ### 💬 相关问题 1. 人工智能导论论文如何避免重复上学期已提交的内容? 2. 非计算机专业学生如何寻找AI与自身专业的结合点? 3. 学术报告中技术细节的深浅程度如何把握? 4. 大作业答辩PPT的核心内容应该怎样筛选? > 附:引用文献定位说明 > [^1] 学生实战经验:论文框架/踩坑警示 > [^2] 教师视角:跨学科要求/评估重点 > [^3] 基础规范:学术写作通用结构
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值