背景:为了确定receptor kinase 3所磷酸化的蛋白,希望从蛋白质结构域互作的角度确定可能与receptor kinase 3互作的蛋白。
存放蛋白质结构域的数据库是Pfam数据库。
1隐马尔可夫模型(HMM)
通过给定已知同源基因蛋白序列,在算法中进行机器学习后生成一个隐马尔可夫模型,然后我们可以利用这个模型来预测其他物种中是否存在这样的同源基因蛋白序列。构建HMM模型需要多个输入序列,并产生一个.hmm
文件,Pfam数据库收集了大量已经计算好的HMM模型,并为每个模型赋予了PF ID
。由于在机器学习过程中存在某些随机过程,想要通过同样的蛋白序列文件获得与数据库中相同的HMM文件,需要使用种子文件,Pfam数据库在每个PF ID
栏都提供了seed
。HMM所预测的是蛋白质氨基酸序列对应的可观测特征,这些可观测特征包括motif、repeat、domain、family、coiled-coil、disorder
,不同的PF ID
归类进入不同的可观测特征类别。一个蛋白序列会包含多个PF ID
,因而可以利用多个PF ID搜索到的蛋白序列取交集获得目标蛋白。
1.1下载HMM文件
已经下载了全部HMM数据库在G:/bioinfor/pfam/
具体怎么检索?
1.2利用HMM模型在物种蛋白质组文件中检索序列
根据HMM模型在蛋白数据库中检索需要HMM模型与蛋白质序列文件。在网站下载蛋白质数据库时需要在基因组数据库的上级目录中去找。
检索所需要的程序包是HMMER,我安装的是V3.3.2版本,推荐直接下载源码安装。
使用HMMER程序包的hmmsearch命令,一个例子:
hmmsearch