机器学习助力蛋白质工程:从模型构建到应用展望
1. 蛋白质选择与优化概述
在获得训练好的序列 - 适应性模型后,目标是将其作为获取函数的一部分,从理论库中选择接下来要表征的序列。这一过程涉及指定可用设计空间、定义获取函数以及利用实验知识更新序列 - 适应性模型等关键步骤。
1.1 指定可用设计空间
由于评估所有可能的蛋白质序列不现实,因此需要限制或隐式定义设计空间。具体方法如下:
- 基于生物分子或实用约束限制 :常见的设计空间包括所有单突变或双突变、少量位点的所有可能突变、多个亲本蛋白质的序列或结构片段重组,以及使用当前 DNA 合成技术易于制备的随机文库。
- 通过生成模型隐式定义 :研究者使用变分自编码器(VAEs)、生成对抗网络(GANs)和自回归语言模型等深度生成模型,从学习到的序列分布中直接生成示例。
1.2 定义获取函数
获取函数结合序列信息和序列 - 功能模型,从设计空间中选择序列进行实验测量。常见的获取函数及特点如下:
|获取函数类型|特点|问题|
| ---- | ---- | ---- |
|贪婪选择|选择序列 - 功能模型的最高预测值,常见且在蛋白质工程中效果良好|在复杂适应性景观中可能陷入局部最优|
|标准获取函数|每次更新序列 - 适应性函数前仅选择单个示例|生物学技术可并行化,批量获取数据更高效,但简单获取多个排名靠前的序列可能导致设计空间探索不足|
|批量获取函数|鼓励批量内的多样性,但仍需进一步研究| |
当库由生成模型定义时,可以使用
超级会员免费看
订阅专栏 解锁全文
1273

被折叠的 条评论
为什么被折叠?



