机器学习助力蛋白质工程:从基础到应用
蛋白质是生命活动中众多关键过程的分子驱动力,它们由氨基酸线性序列组成,这些序列会折叠成复杂的三维结构以实现其功能。然而,自然界仅利用了蛋白质功能的一小部分,许多人类感兴趣的功能仍未被开发。因此,蛋白质工程师常常采用定向进化这一强大的功能优化策略来探索这些未开发的功能。
1. 定向进化基础
定向进化是将自然(和人工)选择过程应用于现代实验室的一种方法,旨在快速优化蛋白质以实现人类期望的功能。其核心在于不断在序列层面修改蛋白质,并筛选出功能得到提升的序列。这一过程已经产生了许多有影响力的工程蛋白,如用于对抗疾病的抗体和能够催化非自然反应的酶,其成功也获得了 2018 年诺贝尔化学奖的认可。
1.1 蛋白质序列空间
蛋白质序列的可能性近乎无穷。一个典型的蛋白质由数百个氨基酸组成,每个位置都有 20 种常见氨基酸的可能,这导致可能的序列数量达到了惊人的 20³⁰⁰(约 10³⁹⁰),比宇宙中原子的总数还要多约 10³⁰⁰ 倍。显然,我们不可能合成并筛选所有这些序列。不过,梅纳德·史密斯指出,功能性蛋白质序列在蛋白质空间中是相互邻近的,这意味着蛋白质工程师可以从具有一定功能的序列开始,通过局部探索来改进蛋白质。
1.2 蛋白质适应度景观
定向进化通常被视为在蛋白质适应度景观上的贪婪爬坡过程,目标是找到适应度的峰值。每一轮的突变和筛选都会在当前序列的局部进行搜索,当找到一个更优的序列时,就向适应度峰值迈进一小步,然后重复这个过程,直到达到满意的适应度或峰值。
然而,实际的适应度景观是离散的高维空间,充满了崎岖不平。这种崎岖性源于生物学中的上位性现象,即突变的效应不仅仅
超级会员免费看
订阅专栏 解锁全文
37

被折叠的 条评论
为什么被折叠?



