记录一下如何使用pssm进行全数据库氨基酸序列比对

1.首先打开服务器软件

在这里插入图片描述 点击Quick Connect,输入密码,连接上自己的服务器。

2.点击左上角的终端窗口

输入ssh node7
再输入conda activate Hhsuite_Psiblast_py36
然后进入自己存文件的路径,
输入nohup psiblast -query /data/home/wangjiuru/JiaYunpeng/pssm_fengpan/again/E5Y379.fasta -db /home/lmy/database/uniref90.fasta -num_iterations 3 -out_ascii_pssm /data/home/wangjiuru/JiaYunpeng/pssm_fengpan/again/outputE5Y379.pssm 2> out.log &

/data/home/wangjiuru/JiaYunpeng/pssm_fengpan/again/E5Y379.fasta 是输入的fasta序列(可以通过目标序列在Uniprot中Blast获取到
/data/home/wangjiuru/JiaYunpeng/pssm_fengpan/again/outputE5Y379.pssm是输出路径	


3.输入top后可以查看运行状态,大概一小时左右即可得到pssm矩阵文件
得到矩阵文件以后,提取其有用信息,即氨基酸序号和名称,以及其他20种氨基酸出现的频数,提取代码为
awk '{print $1, $2, $23, $24, $25, $26, $27, $28, $29, $30, $31, $32, $33, $34, $35, $36, $37, $38, $39, $40,$41,$42}' output.pssm >smart.txt

4.提出来以后,自己把目标氨基酸的挑出来,目标氨基酸由文献、初始位置Pymol中作用力分析、对接后周围氨基酸、模拟50ns最后一帧后6A范围内氨基酸确定。
   然后取除了自己以外的前四名,并列都算,记下名称,写到individual_list.txt文件中
   在MobaXterm的服务器中,用foldx_20241231 -f BuildModel.cfg对其进行指定位点突变
   得到一大堆文件,其中Dif_1qtq.fxout文件的total energy最有用,把文字描述删去后,
   sort -k2,2n Dif_1qtq.fxout > sorted_data.txt
   对其第二列做升序排列,
   记录下编号,去individual_list.txt比对,即可得到初步要改的氨基酸位点及该改成什么。

5.真诚许愿,一定要成功啊,拜托了...
### 生物序列谱与序列谱的比对方法 #### 序列谱比对的基本原理 生物序列谱(profile)通常指用于描述一组具有相似功能或结构的蛋白质或核酸序列特征的统计模型,例如位置特异性评分矩阵(PSSM)、隐马尔可夫模型(HMM)等。序列谱比对(profile-profile alignment)是指将两个这样的谱模型进行比对,以评估它们之间的相似性,并推断其潜在的功能或进化关系。这种比对方式相较于传统的序列-序列比对,在处理远缘同源蛋白时具有更高的灵敏度和准确性。 序列谱比对的核心思想是将每个位置上的氨基酸或核苷酸替换模式考虑在内,而不是简单的单一字符匹配。通过比较两个谱中每个位置的分布概率,可以更准确地识别出保守区域和变异区域之间的对应关系,从而提高比对质量[^3]。 #### 技术实现方法 ##### 基于动态规划的比对算法 许多profile-profile比对工具采用扩展的动态规划方法,如改进版的Needleman-Wunsch或Smith-Waterman算法,来计算两个谱之间的最优路径。在此过程中,每个位置的得分由两个谱中对应位置的概率分布之间的相似性决定,例如使用Kullback-Leibler散度、BLOSUM矩阵加权平均等方式计算。 ##### 隐马尔可夫模型(HMM)比对 HMM-based比对方法通过构建两个HMM模型并计算它们之间的联合概率来进行比对。这种方法能够捕捉序列中的长期依赖关系,并且在处理插入和缺失事件时更加灵活。例如HHsearch和HHalign等工具广泛应用于蛋白质结构预测领域,能够有效识别远缘同源关系[^1]。 ##### 深度学习与嵌入表示方法 近年来,深度学习技术被引入到profile-profile比对中。例如DEDAL(Deep Embedding and Alignment of Protein Sequences)利用深度语言模型生成蛋白质序列的嵌入表示,并结合可微分编程技术自适应地优化替换得分和缺口惩罚。该方法在低相似度序列比对任务中表现优于传统方法,尤其是在远缘同源检测方面显示出显著优势[^1]。 ##### 多重序列比对衍生的谱比对 MUSCLE 和 ClustalW 等多重序列比对工具生成的进化谱也可以作为输入用于profile-profile比对。这些工具通过构建距离矩阵和系统发育树逐步合并序列,最终生成的谱信息可用于进一步的比对分析。ClustalW采用渐进式策略,先进行两两比对再逐步合并,适用于中等规模的数据集;而MUSCLE则在速度和准确性之间取得了更好的平衡,适合大规模数据[^2]。 #### 实际应用示例 以下是一个基于Python的简化版本的谱比对打分函数,模拟了两个谱中每个位置的匹配情况: ```python def profile_profile_score(profile1, profile2): score = 0.0 for i in range(len(profile1)): # 计算每个位置上氨基酸分布的点积作为相似度得分 dot_product = sum(p * q for p, q in zip(profile1[i], profile2[i])) score += dot_product return score # 示例:每个位置为一个20维向量(代表20种氨基酸) profile_a = [[0.8, 0.1, 0.05, 0.05, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0], [0.1, 0.7, 0.1, 0.05, 0.05, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]] profile_b = [[0.75, 0.1, 0.05, 0.1, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0], [0.1, 0.7, 0.1, 0.05, 0.05, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]] print(profile_profile_score(profile_a, profile_b)) ``` 上述代码仅作演示用途,实际应用中通常会结合更复杂的打分体系和优化策略。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值