34、探索BLAST的局限与同源建模：识别蓝藻内肽酶同源物

assembly8low

于 2025-12-03 15:08:09 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏：数据时代的生物探索文章标签： BLAST 同源建模蓝藻

本文链接：https://blog.youkuaiyun.com/assembly8low/article/details/155658475

数据时代的生物探索专栏收录该内容

38 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

探索BLAST的局限与同源建模：识别蓝藻内肽酶同源物

在生物信息学领域，寻找同源序列是一项关键任务，但仅依靠BLAST工具往往存在局限性。本文将详细介绍如何通过结合多种生物信息学工具，识别蓝藻中与大肠杆菌内肽酶HybD同源的内肽酶。

项目背景

在许多情况下，仅使用BLAST很难找到同源序列，因为不佳的期望价值（E值）并不一定意味着结果不佳。本项目将引导我们关注二级和三级结构，并运用先验知识来解决这一问题。

研究表明，大肠杆菌中氢化酶的成熟过程需要多种辅助蛋白，其中包括氢化酶成熟内肽酶HybD，该内肽酶已得到充分表征，甚至其三级结构也已知。许多蓝藻也拥有氢化酶，双向氢化酶与光合作用或呼吸作用功能耦合，而摄取氢化酶与固氮酶功能耦合。然而，关于蓝藻氢化酶的成熟过程知之甚少。我们的任务是识别与HybD同源的蓝藻内肽酶，查询范围限定在三种代表性蓝藻物种：点状念珠藻PCC 73102、念珠藻属PCC 7120和集胞藻属PCC 6803。选择这些物种的原因是，点状念珠藻PCC 73102有一个摄取氢化酶，念珠藻属PCC 7120有一个摄取和一个双向氢化酶，集胞藻属PCC 6803有一个双向氢化酶。

我们使用的先验知识是，每个氢化酶成熟内肽酶必须包含催化活性位点中的氨基酸，特别是图中所示的金属配体残基（NH2 · · · [ED]· · · D · · · H · · · COOH）必须存在。

生物信息学工具

为了解决这个任务，我们将使用以下生物信息学工具：
1. genomicBLAST ：基于网络的版本，允许选择特定的目标生物。可在 http://www.ncbi.nlm.nih.gov/sutils/genom_table.cgi? 找到该程序。
2. ClustalW ：用于创建全局序列比对，帮助我们查看蛋白质序列中哪些部分是保守的，或者保守的功能氨基酸是否对齐。
3. Jpred ：一个基于神经网络预测氨基酸序列二级结构（α - 螺旋和β - 折叠的位置）的网络服务器。可在 http://www.compbio.dundee.ac.uk/www - jpred/index.html 访问。
4. SWISS - MODEL ：一个基于网络的蛋白质结构同源建模集成服务，用于将潜在的蓝藻氢化酶成熟内肽酶与大肠杆菌HybD的已知3D结构进行比对。可在 http://swissmodel.expasy.org/ 访问。
5. Jmol ：一个免费的开源分子结构查看器，基于Java，可在所有能运行Java运行时环境的操作系统上运行。可在 http://jmol.sourceforge.net/ 访问和下载。

详细操作步骤

下载大肠杆菌HybD序列
- 访问 http://www.ncbi.nlm.nih.gov 。
- 在查询字段中输入“gi|7546418”（注意：无空格）。
- 在下拉菜单中选择“Protein”，然后点击“Search”按钮。
- 打开标题为“Chain A, Hydrogenase Maturating Endopeptidase Hybd From E. coli”的条目。
- 在“Display Setting”下拉菜单中选择“Apply”。
- 将结果存储在名为hybd.fasta的文件中，并将序列标识符重命名为E. coli。

以下是hybd.fasta文件的内容：

>ecoli
MRILVLGVGNILLTDEAIGVRIVEALEQRYILPDYVEILDGGTAGMELLGDMANRDHLIIADAIVSKKNA
PGTMMILRDEEVPALFTNKISPHQLGLADVLSALRFTGEFPKKLTLVGVIPESLEPHIGLTPTVEAMIEP
ALEQVLAALRESGVEAIPRSDS

蓝藻BLAST I
- 访问 http://www.ncbi.nlm.nih.gov/sutils/genom_table.cgi? 。
- 将大肠杆菌HybD序列粘贴到查询窗口。
- 将“Query”和“Database”都设置为蛋白质。
- 在同一页面下方选择以下蓝藻：点状念珠藻PCC 73102、念珠藻属PCC 7120、集胞藻属PCC 6803。
- 点击“BLAST”按钮，然后在接下来的页面点击“View Report”按钮。
- 仔细查看结果，选择所有在大肠杆菌HybD活性位点包含相同或相似氨基酸的蓝藻命中序列。
- 点击“Get selected sequences”，并在“FASTA (text)”中选择“Display”。
- 将这些序列添加到hybd.fasta文件中，并根据其物种来源将其重命名为PCC7120、PCC6803或PCC73102。
蓝藻BLAST II
由于大肠杆菌和蓝藻在分类学上的差异较大，可能难以找到同源序列。因此，我们使用第一次BLAST中匹配的第一个蓝藻序列（NP_485466.1）进行再次BLAST。
- 选择所有在活性位点包含相同或相似氨基酸的新命中序列。
- 有一个有趣的序列（ID NP_441000.1），虽然只有两个匹配的活性位点氨基酸，但匹配的D（天冬氨酸）与N端的距离非常相似，因此也将其添加到hybd.fasta文件中。

此时，hybd.fasta文件应包含大肠杆菌HybD序列以及来自BLAST I的两个蓝藻候选序列和来自BLAST II的两个额外候选序列。

以下是更新后的hybd.fasta文件内容：

>ecoli
MRILVLGVGNILLTDEAIGVRIVEALEQRYILPDYVEILDGGTAGMELLGDMANRDHLIIADAIVSKKNA
PGTMMILRDEEVPALFTNKISPHQLGLADVLSALRFTGEFPKKLTLVGVIPESLEPHIGLTPTVEAMIEP
ALEQVLAALRESGVEAIPRSDS
>PCC7120-1
MLTIIGCGNLNRSDDAVGVIIAQRLQKYLAENPHPHVQVYDCGTAGMEVMFQARGSKQLVIIDASSTGSE
PGAVFKVPGEELAALPEPSYNLHDFRWDHALAAGRKIFPDDFPQDVTVYLIEAANLDFGLELSPVVQQSA
DLVVEKIVEIIRN
>PCC73102-1
MLTIIGCGNLNRSDDAVGVIIAQHLQKYLAENPHPYVRVYDCGTAGMEVMFQARGSQQLIIIDASSTGSE
PGAVFKVPGKELEALPEPSYNLHDFRWDNALAAGRKIFQNDFPDDVTVYLIEAANLGLGLELSPIVKHSA
DLVFEEVAALISQNINF
>PCC7120-2
MKKTVMVIGYGNDLRSDDGIGQRIANEVASWRLPSVESLAVHQLTPDLADSLASVDLAIFIDACLPVHGF
DVKVQPLFAAGDIDSNVHTGDPRSLLALTKAIYGNCPTAWWVTIPGANFEIGDRFSRTAETGKAIALVKI
IQILDKVNNLWFEVGAVA
>PCC6803-2
MPGQSTKSTLIIGYGNTLRGDDGVGRYLAEEIAQQNWPHCGVISTHQLTPELAEAIAAVDRVIFIDAQLQ
ESANEPSVEVVALKTLEPNELSGDLGHRGNPRELLTLAKILYGVEVKAWWVLIPAFTFDYGEKLSPLTAR
AQAEALAQIRPLVLGER

计算比对和树状图
- 可以使用本地安装的ClustalW或访问 http://www.genome.jp/tools/clustalw/ 进行在线操作。
- 将hybd.fasta文件的内容粘贴到输入窗口（或加载本地存储的文件）。
- 选择CLUSTAL作为输出格式，然后按下“Execute Multiple Alignment”按钮。
- 将得到的全局多序列比对保存到名为hybd.align的文本文件中。
- 根据大肠杆菌序列，检查活性位点氨基酸是否正确对齐。

我们可以通过选择“Rooted phylogenetic tree with branch length (UPGMA)”并点击“Execute”来可视化ClustalW的结果。树状图的分支长度表示序列之间的相关性。聚类结果表明，PCC7120 - 1和PCC73102 - 1聚类在一起，与大肠杆菌HybD也有相似性；PCC7120 - 2和PCC6803 - 2形成另一个聚类。这使我们可以提出一个有趣的假设：念珠藻属PCC 7120中的每个氢化酶可能都有自己的成熟肽酶。

以下是操作流程的mermaid流程图：

graph LR
    A[下载大肠杆菌HybD序列] --> B[蓝藻BLAST I]
    B --> C[蓝藻BLAST II]
    C --> D[计算比对和树状图]

通过以上步骤，我们初步完成了对蓝藻内肽酶同源物的识别和分析。后续还将对二级结构和三级结构进行进一步的研究，以验证这些候选序列是否为真正的氢化酶成熟内肽酶。

探索BLAST的局限与同源建模：识别蓝藻内肽酶同源物

二级结构检查

虽然我们从一级结构（即氨基酸序列）上已经能看出，在蓝藻蛋白质组中识别出的序列是不错的氢化酶成熟肽酶候选序列，即便BLAST的E值不理想。但为了收集更多证据，增强我们的信心，接下来对二级结构进行比较。蛋白质的二级结构特征，如α - 螺旋和β - 折叠，是可以较好地预测的。这里我们使用Jpred，一个基于训练好的神经网络来预测二级结构特征的网络服务器。

使用Jpred的最简单方法是在其高级网页界面中触发批量作业，具体步骤如下：
1. 访问 http://www.compbio.dundee.ac.uk/www - jpred/advanced.html 。
2. 使用“choose file”按钮选择hybd.fasta文件。
3. 选择“Batch Mode”作为输入类型。
4. 勾选“Skip searching PDB before prediction”。
5. 输入你的电子邮件地址，查询名称设为HybD。
6. 点击“Make Prediction”按钮触发分析。

结果通常会在几分钟内发送到你的电子邮件，类似如下内容：

Your job has completed successfully...

Query:
MLTIIGCGNLNRSDDAVGVIIAQHLQKYLAENPHPYVRVYDCGTAGMEVMFQARGSQQLI
Jpred:
-EEEEEE---------HHHHHHHHHHHHH-------EEEEE-----HHHHHHH----EEE
Conf:
435654068888776527899999998614788874578744787457777644886478

Query:
IIDASSTGSEPGAVFKVPGKELEALPEPSYNLHDFRWDNALAAGRKIFQNDFPDDVTVYL
Jpred:
EEEEE-------EEEEEE------------------HHHHHHHHHHHH------EEEEEE
Conf:
988853788873588880367777777777777763689999999885378884488988

Query:
IEAANLGLGLELSPIVKHSADLVFEEVAALISQNINF
Jpred:
EEE----------HHHHHHHHHHHHHHHHHHHHH---
Conf:
8620067777632689999999999999999884099

The complete set of outputs can be viewed at:
http://www.compbio.dundee.ac.uk/www - jpred/cgi - bin/chklog?jp_TEttI6x

为了量化二级结构的相似性，我们可以使用一个简单但有效的方法，即把序列或二级结构赋值当作文本字符串进行比较，并统计每个位置的匹配情况。以下是实现该功能的AWK脚本：

# USAGE awk -f compare - strings.awk ’ string1’ ’ string2’
# NOTE the leading SPACE characters in the embracing single quotes
BEGIN{
    a = ARGV[1]; b = ARGV[2]
    len_a = length(a)-1; len_b = length(b)-1
    sum_match = 0; sum_mismatch = 0
    if(len_a!=len_b){print "ERROR: UNEQUAL STRING LENGTH"; exit}
    for(i=1;i<=len_a;i++){
        ai = substr(a,i + 1,1); bi = substr(b,i + 1,1)
        if(ai == bi){sum_match++} else{sum_mismatch++}
    }
    print "LENGTH = "len_a
    print "MISMATCHES = "sum_mismatch" ("sum_mismatch/len_a*100"%)"
    print "MATCHES = "sum_match" ("sum_match/len_a*100"%)"
}

以下是该脚本的应用示例，注意字符串要用单引号括起来，且前面要有一个空格字符，以防止前导破折号被解释为AWK参数：

$ awk -f compare - strings.awk ’ ------MRILVLGVGNILLTDEAIG---VRIVEALEQRYILPD
YVEILDGGTAGMELLGDMANRDHLIIADAIVSKKNAPGTMMILRDEEVPALFTNKISPHQLG - LADVLSALRFT
GEFPKKLTLVGVIPESLEPHIGLTPTVEAMIEPALEQVLAALRESGVEAIPRSDS - ’ ’ MPGQSTKSTLIIGY
GNTLRGDDGVG----RYLAEEIAQQNWP - HCGVISTHQLTPELAEAIAAVDRVIFIDAQLQESANEPSVEVVAL
KTLEPNELSGDLGHRGNPRELLTLAKILYG - VEVKAWWVLIPAFTFDYGEKLSPLTARAQAEALAQIRPLVLGE
R----------’
LENGTH = 174
MISMATCHES = 143 (82.1839%)
MATCHES = 31 (17.8161%)

当你将所有蓝藻序列与大肠杆菌序列作为参考进行比较时，会得到类似图中右侧的数值。显然，二级结构的同一性比氨基酸序列要高得多。那么三级结构又如何呢？

三级结构比对（同源建模）

在进入实验室进行实验研究之前，最后一步是测试能否将潜在的蓝藻氢化酶成熟内肽酶与已知的大肠杆菌酶结构进行比对，这种三级结构比对也称为同源建模。我们将使用瑞士巴塞尔大学的SWISS - MODEL服务器。具体操作如下：
1. 访问 http://swissmodel.expasy.org ，并点击“Automated Mode”链接。
2. 需要分别提交每个蓝藻候选序列。
3. 选择结构1CFZ的链A作为模板（该结构来自相关研究）。由于晶体几何结构，结构1CFZ包含六个相同的单体（蛋白质链），所以我们只对单个链进行建模。

提交建模请求后，SWISS - MODEL会自动为你创建一个单独的工作区，并通过电子邮件发送密码。结果会在服务器上保存一周，工作区则不会过期。完成的作业的预测结构可以从结果页面下载为PDB文件，将所有四个结构下载并保存，例如命名为pcc7120 - 1.pdb。

下载并可视化大肠杆菌HybD结构

虽然我们大量使用了HybD的氨基酸序列并将其作为同源建模的模板，但还没有查看过它的结构。该结构的PDB ID为1CFZ，我们可以通过Jmol直接从PDB加载结构文件，步骤如下：
1. 下载Jmol后，假设jmol - 12.2.32是当前工作目录的子文件夹，在终端输入 java -jar jmol–12.2.32/Jmol.jar & ，这将在后台的单独窗口中打开Jmol。
2. 打开菜单“File” -> “Get PDB”，输入“1CFZ”。
3. 可以从菜单执行命令，作为高级用户也可以使用Jmol控制台的丰富命令语言，打开菜单“File” -> “Console…”，会打开一个类似Linux终端的窗口，用于控制Jmol。

以下是一些用于修改结构视图的Jmol命令：

restrict :A # only show chain A
center :A # center the view
cartoon # show secondary structure features
spacefill off # hide filled atoms
wireframe off # hide atom bonds
color structure # color by structure feature
select GLU16:A, ASP62:A, HIS93:A # select particular amino acids
spacefill 120 # show atoms of selected amino acids
wireframe 40 # show bonds of selected amino acids
color cpk # color by atom identity
select CD:A # select cadmium in chain A
spacefill 150 # show selected atom
color orange # color selected atom

总结

通过一系列生物信息学工具和操作，我们从寻找蓝藻中与大肠杆菌内肽酶HybD同源的内肽酶入手，完成了从序列下载、BLAST比对、二级结构预测到三级结构建模以及结构可视化的整个流程。在这个过程中，我们发现仅依靠BLAST可能难以找到同源序列，需要结合二级和三级结构信息以及先验知识。通过ClustalW进行序列比对和树状图分析，我们提出了关于蓝藻氢化酶成熟肽酶的有趣假设。二级结构检查和三级结构比对进一步为候选序列是否为真正的氢化酶成熟内肽酶提供了证据。整个流程如下表所示：
|步骤|操作|工具|
| ---- | ---- | ---- |
|1|下载大肠杆菌HybD序列|GenBank|
|2|蓝藻BLAST I|genomicBLAST|
|3|蓝藻BLAST II|genomicBLAST|
|4|计算比对和树状图|ClustalW|
|5|二级结构检查|Jpred|
|6|三级结构比对（同源建模）|SWISS - MODEL|
|7|下载并可视化大肠杆菌HybD结构|Jmol|

以下是整个流程的mermaid流程图：

graph LR
    A[下载大肠杆菌HybD序列] --> B[蓝藻BLAST I]
    B --> C[蓝藻BLAST II]
    C --> D[计算比对和树状图]
    D --> E[二级结构检查]
    E --> F[三级结构比对（同源建模）]
    F --> G[下载并可视化大肠杆菌HybD结构]

通过这些步骤和分析，我们为进一步的实验研究提供了有价值的信息和方向。