3 用于识别致病突变的特征
文献中使用了几种特征来识别蛋白质中的致病突变。它们大致分为三类:(1)序列,(2)结构和(3)网络,以及它们的组合。图1说明了这三组中的一些重要属性。
图1 用于识别致病突变和热点的重要特征。
基于氨基酸序列的特性包括理化特性、二级结构、位置特异性得分矩阵(PSSM)、特异性基序(motifs)和保守性得分。基于结构的性质包括界面分布(interface profiles)、残基的位置在核心和表面、相对溶剂可及面积(RSA)、体积、氢键供体和受体以及统计势能(statistical potentials)。基于网络的特征主要集中在分子相互作用网络、度、介数(betweenness)、紧密度(closeness)、特征向量和聚类系数等方面(eigen vector and clustering coefficient)。
3.1 基于序列的性质
3.1.1 理化性质
Gromiha等人(1999)收集了一组49种氨基酸特性,它们代表了物理、化学、构象(conformational)和能量特性。这些特性被广泛用于理解蛋白质的结构和功能,以及预测突变的后果。AAindexis是另一个数据库,它包含氨基酸各种理化和生化性质的数值指数。(没看懂这个数据库,但是链接是:AAindex: Amino