使用HMMERsearch搜索某物种中含有某蛋白质结构域的全部蛋白

背景:为了确定receptor kinase 3所磷酸化的蛋白,希望从蛋白质结构域互作的角度确定可能与receptor kinase 3互作的蛋白。
存放蛋白质结构域的数据库是Pfam数据库。

1隐马尔可夫模型(HMM)

通过给定已知同源基因蛋白序列,在算法中进行机器学习后生成一个隐马尔可夫模型,然后我们可以利用这个模型来预测其他物种中是否存在这样的同源基因蛋白序列。构建HMM模型需要多个输入序列,并产生一个.hmm文件,Pfam数据库收集了大量已经计算好的HMM模型,并为每个模型赋予了PF ID。由于在机器学习过程中存在某些随机过程,想要通过同样的蛋白序列文件获得与数据库中相同的HMM文件,需要使用种子文件,Pfam数据库在每个PF ID 栏都提供了seed。HMM所预测的是蛋白质氨基酸序列对应的可观测特征,这些可观测特征包括motif、repeat、domain、family、coiled-coil、disorder,不同的PF ID归类进入不同的可观测特征类别。一个蛋白序列会包含多个PF ID,因而可以利用多个PF ID搜索到的蛋白序列取交集获得目标蛋白。

1.1下载HMM文件

HMM文件下载界面
已经下载了全部HMM数据库在G:/bioinfor/pfam/
具体怎么检索?

1.2利用HMM模型在物种蛋白质组文件中检索序列

根据HMM模型在蛋白数据库中检索需要HMM模型与蛋白质序列文件。在网站下载蛋白质数据库时需要在基因组数据库的上级目录中去找
检索所需要的程序包是HMMER,我安装的是V3.3.2版本,推荐直接下载源码安装。
使用HMMER程序包的hmmsearch命令,一个例子:

hmmsearch 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值