基于特定配体耦合模式的G蛋白偶联受体功能分类
一、引言
G蛋白偶联受体(GPCRs)在细胞信号传导和各种基本生理过程的调节中起着关键作用,是真核跨膜蛋白中最大的家族之一。它们与超过50%的处方药相互作用,因此成为药物设计和当前制药研究的优秀潜在治疗靶点类别。尽管通过正在进行的基因组学项目已经知道了数千个GPCR序列,但只有一个GPCR序列的晶体结构通过电子衍射在中等分辨率下得到了解决,而且许多GPCR的激活配体未知,这些被称为孤儿GPCR。因此,基于序列信息对这些孤儿GPCR和新出现的GPCR序列进行功能分类的方法,对于促进新型GPCR的鉴定和表征具有重要的实际应用价值。
实验室实验虽然是最可靠的方法,但成本高且耗时长。为了实现自动化,计算方法如决策树、判别分析、神经网络和支持向量机(SVM)等在生物数据分类领域得到了广泛应用。其中,SVM在许多实际分类问题中表现出最佳的预测性能,包括生物问题。SVM能够通过找到一个具有最大间隔的唯一超平面来分离两类数据,从而最小化结构风险,因此在未见过的数据上具有最佳的泛化能力。
目前,已有多种方法用于对GPCR进行不同层次的家族分类,如使用初级数据库搜索工具(如BLAST、FASTA),但这些方法要求查询蛋白与数据库序列有显著相似性才能正常工作。此外,还有使用二级数据库方法(如Attwood等人在PRINTS数据库中对GPCR的研究)、隐马尔可夫模型、装袋分类树和SVM等方法。Karchin等人的研究表明,SVM在识别GPCR家族方面具有最高的准确性,但SVM需要将每个蛋白质序列转换为固定长度的向量,并且其预测准确性在很大程度上取决于这个特定的固定长度向量。
二、背景
G蛋白偶联受体数据库(GPCR
超级会员免费看
订阅专栏 解锁全文
1405

被折叠的 条评论
为什么被折叠?



