32、机器学习助力蛋白质工程:从基础到应用

机器学习助力蛋白质工程:从基础到应用

1. 蛋白质工程的起点与策略

在蛋白质工程中,寻找具有理想特性的起始变体是关键。有一种方法虽理想但尚未完全实现,它无需对生成的蛋白质进行物理筛选,就能提供具有所需特性的稳健起始点。不过,ProGen是一个值得关注的例子,它在三个蛋白质家族中生成功能蛋白质序列的成功率高达50%以上,但在扩展到更复杂的功能和蛋白质特性方面仍有改进空间。

当起始变体未知或与现有蛋白质有很大差异时,上述方法有其用武之地。但在许多情况下,已经存在一个功能良好的变体,目标只是提高其适应性。直接使用定向进化来进化已知的最佳变体可能并非最有效的策略,因为已知的高适应性变体可能处于适应度景观的局部最优,通往未知全局最优的进化路径可能需要跨越适应度低谷,即路径中的一些中间突变会降低适应性。

因此,从较低适应性的变体开始进化可能更可取,通过蛋白质工程中常见的贪婪上坡策略,可以到达多个局部和全局最优的适应度峰值。设计一个更具进化潜力的起始变体,即使会牺牲一些适应度,仍是一个有待解决的问题,而机器学习可能在其中发挥重要作用。具有高内在稳定性的蛋白质被认为更具进化潜力,许多机器学习模型已被开发用于直接(通过监督学习)或间接(作为无监督模型的新兴属性)预测稳定性。此外,从局部最优开始的定向进化仍可通过更复杂的、模型引导的策略跨越适应度低谷。

2. 构建初始文库

训练机器学习模型的数据决定了它所学的内容,进而决定了它在哪些情况下可以做出有效的预测。对于蛋白质工程而言,提供训练数据的文库设计对训练模型最终找到改进序列的有效性至关重要。

2.1 文库构建的实验方法

确定进化的起始点后,可以使用多种分子生物学

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值