利用对比分类器探索蛋白质数据库中的偏差
1. 引言
结构基因组学的终极目标是通过大规模的结构表征和计算分析来确定每一种天然蛋白质的结构。不过,考虑到目前尚未有经济高效的大规模实验技术和方案,当下结构基因组学的工作重点是确定一部分有代表性的蛋白质结构,以快速覆盖蛋白质序列 - 结构空间。通常的做法是,先过滤掉那些不适合进行结构表征的蛋白质,如膜蛋白、低复杂度蛋白和信号肽等,然后根据序列相似性将剩余蛋白质聚类成家族,最后从最具生物学意义的家族中挑选代表性蛋白质进行结构表征实验。虽然已经取得了一些进展,但目标蛋白质的选择在结构基因组学中仍然是一个有待解决的问题。
蛋白质数据库(PDB)是实验表征结构信息的主要数据库,包含了超过 20,000 种蛋白质、核酸和其他相关大分子的结构信息,这些信息是通过 X 射线衍射和核磁共振(NMR)光谱等方法获得的。然而,PDB 中的信息存在很大的偏差,它并没有充分覆盖整个序列/结构空间。例如,膜蛋白在自然界中是非常重要的结构类别,但由于需要脂质双层或替代两亲分子,其结构通常极难确定。一般来说,PDB 对那些更易于表达、纯化和结晶的蛋白质存在正向偏差。此外,不同的研究小组在选择目标蛋白质时通常有不同的目标,这也是偏差的一个来源。而且,由于存在大量高度相似或相同蛋白质的多个条目,PDB 在统计上也存在冗余。
了解 PDB 中的偏差和冗余对于选择进一步的结构目标以及进行各种结构预测至关重要。此前已有多项研究致力于此。本文通过训练一组神经网络分类器,来区分 PDB 和 SWISS - PROT 非冗余子集的分布,从而提供了一种关于 PDB 偏差的补充观点。根据最近提出的对比分类器框架,这种分类器的输出可以衡量给定序列属性在 PDB 中相对于 SWISS - P
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



