蛋白质O-糖基化位点预测:基于支持向量机与结构信息
1. 引言
蛋白质糖基化及其功能的研究是理解生命系统的重要课题之一。碳水化合物链与蛋白质或脂质结合,在各种生命现象中发挥着关键作用。超过一半的蛋白质会发生糖基化,以获得功能、生物多样性和结构稳定性等,并且这一过程还与阿尔茨海默病、癌症和呼吸系统疾病等严重疾病的发病有关。哺乳动物蛋白质糖基化主要有O-糖基化和N-糖基化两种类型。N-糖基化是在Asn-X-Ser/Thr序列中的天冬酰胺(Asn)残基上进行的结合过程,其机制包括糖蛋白的合成途径已被阐明。而O-糖基化则是丝氨酸(Ser)或苏氨酸(Thr)特异性的,但目前其共识序列和机制仍不清楚。
近年来,生物信息学的实验发现迅速增加。UniProt是最大的蛋白质序列信息数据库,它整合了以前的主要数据库SwissProt和PIR。该数据库的数据根据最新的实验报告进行更新,并通过互联网向公众开放。蛋白质数据库(PDB)是最大的蛋白质结构信息数据库,包含通过X射线衍射或NMR研究观察到的组成元素的三维结构数据,同样也向公众开放。
在本研究中,我们使用从UniProt8.0获得的最新哺乳动物蛋白质序列数据,以及从PDB获得的蛋白质结构数据,通过DSSP计算二级结构信息和可及性,并使用支持向量机(SVM)来预测O-糖基化位点。
2. 蛋白质数据
2.1 来自UniProt的蛋白质序列数据和来自PDB的结构数据
从UniProt8.0中选择了99条具有O-糖基化注释的哺乳动物蛋白质序列。在这99条序列中,有41种蛋白质在PDB中注册了每个氨基酸残基的三维结构数据。由于PDB中的每个数据是在特定实验条件下观察到的蛋白质数据,一种蛋白
基于SVM与结构信息的蛋白质O-糖基化位点预测
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



