18、蛋白质指纹分类:提升准确性的探索

蛋白质指纹分类:提升准确性的探索

1. 研究背景与动机

蛋白质指纹是从多序列比对中提取的一组保守氨基酸基序,用于表征蛋白质家族。PRINTS数据库是一个收录了超过1800个蛋白质家族、超家族和结构域诊断指纹的资料库,它提供了大量人工标注信息,旨在记录组成蛋白质家族,并从功能和结构角度解释保守区域。然而,标注过程详尽且耗时,与其他主要自动生成的特征数据库相比,PRINTS规模相对较小。

为解决这一问题,人们对指纹生成和标注的自动化进行了研究。此前开发的PRECIS工具可从相关SWISS - PROT条目中生成蛋白质报告,但存在局限性。一方面,该工具生成的标注往往滞后于当前文献所能提供的信息,因为它几乎完全依赖SWISS - PROT中的信息,而该数据库难以实时更新。另一方面,PRECIS相对简单的启发式方法常导致指纹分类错误。指纹大致可分为基因家族或超家族(由共同功能联合)、结构域家族(由共同结构基序联合),准确的指纹分类有助于确保处理正确信息以生成合适的标注。

2. 任务与数据表示

研究目标是用从数据中提取的分类模型取代PRECIS的手工启发式方法。在利用SWISS - PROT之前,先研究了指纹的物理参数是否可作为判别器来改进分类。指纹可从三个不同实体进行表征:指纹本身、其组成基序和蛋白质,这属于多关系学习问题,这里采用了一种将蛋白质和基序特征聚合在指纹上的命题化方法。

2.1 指纹特征

指纹整体可通过所含基序和蛋白质的数量来描述,其连贯性可用真阳性率和部分阳性率表示,分别指匹配指纹中所有或部分基序的蛋白质序列比例。相关统计信息总结如下表:
| 指纹特征 | 描述 |
| ---- | --

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值