InterPro-一个关于蛋白家族、区域和功能位点知识的集成文献资源

InterPro是一个综合性的文献资源,专注于蛋白家族、区域和功能位点的文档,结合了PROSITE、PRINTS、Pfam和ProDom数据库的注释。它提供了一个包含2400多个条目的核心数据库,涵盖4300多个模式、轮廓、指纹和HMM,用于SWISS-PROT和TrEMBL的370,000多次匹配。InterPro通过提供一致的访问和解释不同数据库搜索结果的方式,增强了蛋白质功能预测的效率和可靠性。" 112000417,7549583,APICloud视频播放实现:videoPlayer模块详解,"['APICloud', '移动开发', '视频播放']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

InterPro – An integrated documentation resource for protein families, domains and functional sites

R.Apweiler (1), T.K.Attwood (4), A.Bairoch (2), A.Bateman (5), E.Birney (5), P.Bucher (3), J-J.Codani (8), F.Corpet (6), M.D.R.Croning (1,4), R.Durbin (5), T.Etzold (9), W.Fleischmann (1), J.Gouzy (6), H.Hermjakob (1), I.Jonassen (7), D.Kahn (6), A.Kanapin (1), R.Schneider (9), F.Servant (6), E.Zdobnov (1)

 

1 EMBL Outstation – European Bioinformatics Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge, UK
2 Swiss Institute for Bioinformatics, Geneva, Switzerland.
3 Swiss Institute for Experimental Cancer Research, Lausanne, Switzerland.
4 School of Biological Sciences, The University of Manchester, Manchester, UK.
5 The Sanger Centre, Wellcome Trust Genome Campus, Hinxton, Cambridge, UK.
6 CNRS/INRA, Toulouse, France.
7 University of Bergen, Norway.
8 INRIA, 78153 Le-Chesnay Cedex, France.
9 LION bioscience AG

Abstract

InterPro is a new integrated documentation resource for protein families, domains and functional sites, developed as a means of rationalising the complementary efforts of the PROSITE, PRINTS, Pfam and ProDom database projects. Merged annotations from PRINTS, PROSITE and Pfam form the InterPro core. Each combined InterPro entry includes functional descriptions and literature references, and links are made back to the relevant parent database(s), allowing users to see at a glance whether a particular family or domain has associated patterns, profiles, fingerprints, etc.. Merged and individual entries (i.e., those that have no counterpart in the companion resources) are assigned unique accession numbers. The first release of InterPro contains around 2,400 entries, representing families, domains, repeats and sites of post-translational modification (PTMs) encoded by 4,300 regular expressions, profiles, fingerprints and Hidden Markov Models (HMMs). Each InterPro entry lists all the matches against SWISS-PROT and TrEMBL (more than 370,000 hits in total). The database is accessible for text-based searches at http://www.ebi.ac.uk/ interpro/.

Introduction

Pattern databases have become vital tools for identifying distant relationships in novel sequences and hence for inferring protein function. During the last decade, several pattern-recognition methods have evolved to address different sequence analysis problems, resulting in rather different and, for the most part, independent databases. To perform a comprehensive analysis, a user therefore has to know several important things. For example, what are the resources and where can they be found? What

### 蛋白质保守位点分析的生物信息学工具与方法 #### 1. **定义与背景** 蛋白质保守位点是指在进化过程中保持不变或仅发生少量变异的关键区域,通常与其功能密切相关。这些位点可以通过多种生物信息学方法和工具进行识别和分析。 --- #### 2. **常用工具** - **MEME Suite** MEME (Multiple EM for Motif Elicitation) 是一种强大的工具,专门用于发现DNA或蛋白质序列中的模体(motifs),即高度保守的短序列片段[^2]。它通过对输入序列集合执行统计分析来检测重复出现的模式,并提供可视化结果以便进一步解释。 - **Clustal Omega 和 MUSCLE** 这些是多序列比对(MSA, Multiple Sequence Alignment)的经典工具,广泛应用于蛋白质保守位点的研究中[^3]。通过将多个相关蛋白序列排列在一起,可以直观地观察哪些位置在整个家族成员间表现出较高的相似度或完全一致。 - ** Jalview** Jalview 提供了一个交互式的界面来进行复杂的多重序列对比操作并支持各种格式文件导入导出。更重要的是它可以连接到其他在线服务比如 Pfam 或 UniProt 来获取额外的信息关于所选列的功能注释。 - **SMART 和 InterProScan** SMART 数据库专注于收集已知结构域及其相关信息;而 InterPro 则整合了来自不同来源的数据集以全面覆盖可能存在的特征标记。两者都可用于扫描查询序列是否存在任何匹配记录进而推断潜在的作用机制[^1]。 - **PhyloP 和 GERP++** 当前还有几种算法利用物种间的差异程度评估每一个碱基的重要性得分,例如 Phylogenetic p-values(phyloP) 及 Genomic Evolutionary Rate Profiling(GERP++) 。它们依据构建好的系统发育树计算各节点分支长度反映替换速率的变化趋势从而判断目标区域内是否有显著的选择压力存在。 --- #### 3. **深度学习的应用** 近年来随着人工智能技术的发展,基于神经网络架构设计的新一代解决方案逐渐崭露头角,在处理大规模非线性关系方面展现出独特优势。相比传统依赖专家经验设定参数的手工方式而言,这类自动化流程往往能捕捉更多隐藏规律实现更高精度预测效果[^5]: - 使用卷积层提取局部空间关联; - 结合循环单元记忆长期上下文依赖; - 引入注意力机制突出重要部分贡献权重等策略均有助于提升整体性能表现。 --- #### 4. **案例代码展示** 以下是调用 `biopython` 库完成简单多序列比对的一个 Python 实现例子: ```python from Bio import AlignIO from Bio.Align.Applications import ClustalwCommandline cline = ClustalwCommandline("clustalw", infile="input.fasta") stdout, stderr = cline() alignment = AlignIO.read("input.aln", "clustal") print(alignment) ``` --- #### 5. **总结** 综上所述,无论是经典的统计建模还是新兴的人工智能驱动方案都可以有效助力我们揭示生命科学领域内的奥秘所在。然而值得注意的是每种途径都有各自适用范围及局限之处所以在实际应用当中应当综合考虑具体需求选取最合适的技术手段加以运用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值