使用HMMERsearch搜索某物种中含有某蛋白质结构域的全部蛋白

原创

已于 2023-08-31 16:00:22 修改 · 9.5k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2023-03-13 09:49:37 首次发布

背景：为了确定receptor kinase 3所磷酸化的蛋白，希望从蛋白质结构域互作的角度确定可能与receptor kinase 3互作的蛋白。
存放蛋白质结构域的数据库是Pfam数据库。

1隐马尔可夫模型（HMM）

通过给定已知同源基因蛋白序列，在算法中进行机器学习后生成一个隐马尔可夫模型，然后我们可以利用这个模型来预测其他物种中是否存在这样的同源基因蛋白序列。构建HMM模型需要多个输入序列，并产生一个.hmm文件，Pfam数据库收集了大量已经计算好的HMM模型，并为每个模型赋予了PF ID。由于在机器学习过程中存在某些随机过程，想要通过同样的蛋白序列文件获得与数据库中相同的HMM文件，需要使用种子文件，Pfam数据库在每个PF ID 栏都提供了seed。HMM所预测的是蛋白质氨基酸序列对应的可观测特征，这些可观测特征包括motif、repeat、domain、family、coiled-coil、disorder，不同的PF ID归类进入不同的可观测特征类别。一个蛋白序列会包含多个PF ID，因而可以利用多个PF ID搜索到的蛋白序列取交集获得目标蛋白。

1.1下载HMM文件

HMM文件下载界面
已经下载了全部HMM数据库在G：/bioinfor/pfam/
具体怎么检索？

1.2利用HMM模型在物种蛋白质组文件中检索序列

根据HMM模型在蛋白数据库中检索需要HMM模型与蛋白质序列文件。在网站下载蛋白质数据

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。