33、机器学习助力蛋白质工程:从模型构建到应用展望

机器学习助力蛋白质工程:从模型构建到应用展望

1. 蛋白质选择与优化概述

在获得训练好的序列 - 适应性模型后,目标是将其作为获取函数的一部分,从理论库中选择接下来要表征的序列。这一过程涉及指定可用设计空间、定义获取函数以及利用实验知识更新序列 - 适应性模型等关键步骤。

1.1 指定可用设计空间

由于评估所有可能的蛋白质序列不现实,因此需要限制或隐式定义设计空间。具体方法如下:
- 基于生物分子或实用约束限制 :常见的设计空间包括所有单突变或双突变、少量位点的所有可能突变、多个亲本蛋白质的序列或结构片段重组,以及使用当前 DNA 合成技术易于制备的随机文库。
- 通过生成模型隐式定义 :研究者使用变分自编码器(VAEs)、生成对抗网络(GANs)和自回归语言模型等深度生成模型,从学习到的序列分布中直接生成示例。

1.2 定义获取函数

获取函数结合序列信息和序列 - 功能模型,从设计空间中选择序列进行实验测量。常见的获取函数及特点如下:
|获取函数类型|特点|问题|
| ---- | ---- | ---- |
|贪婪选择|选择序列 - 功能模型的最高预测值,常见且在蛋白质工程中效果良好|在复杂适应性景观中可能陷入局部最优|
|标准获取函数|每次更新序列 - 适应性函数前仅选择单个示例|生物学技术可并行化,批量获取数据更高效,但简单获取多个排名靠前的序列可能导致设计空间探索不足|
|批量获取函数|鼓励批量内的多样性,但仍需进一步研究| |

当库由生成模型定义时,可以使用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值