34、探索BLAST的局限与同源建模:识别蓝藻内肽酶同源物

探索BLAST的局限与同源建模:识别蓝藻内肽酶同源物

在生物信息学领域,寻找同源序列是一项关键任务,但仅依靠BLAST工具往往存在局限性。本文将详细介绍如何通过结合多种生物信息学工具,识别蓝藻中与大肠杆菌内肽酶HybD同源的内肽酶。

项目背景

在许多情况下,仅使用BLAST很难找到同源序列,因为不佳的期望价值(E值)并不一定意味着结果不佳。本项目将引导我们关注二级和三级结构,并运用先验知识来解决这一问题。

研究表明,大肠杆菌中氢化酶的成熟过程需要多种辅助蛋白,其中包括氢化酶成熟内肽酶HybD,该内肽酶已得到充分表征,甚至其三级结构也已知。许多蓝藻也拥有氢化酶,双向氢化酶与光合作用或呼吸作用功能耦合,而摄取氢化酶与固氮酶功能耦合。然而,关于蓝藻氢化酶的成熟过程知之甚少。我们的任务是识别与HybD同源的蓝藻内肽酶,查询范围限定在三种代表性蓝藻物种:点状念珠藻PCC 73102、念珠藻属PCC 7120和集胞藻属PCC 6803。选择这些物种的原因是,点状念珠藻PCC 73102有一个摄取氢化酶,念珠藻属PCC 7120有一个摄取和一个双向氢化酶,集胞藻属PCC 6803有一个双向氢化酶。

我们使用的先验知识是,每个氢化酶成熟内肽酶必须包含催化活性位点中的氨基酸,特别是图中所示的金属配体残基(NH2 · · · [ED]· · · D · · · H · · · COOH)必须存在。

生物信息学工具

为了解决这个任务,我们将使用以下生物信息学工具:
1. genomicBLAST :基于网络的版本,允许选择特定的目标生物。可在 http://www.ncbi.nlm.nih.gov/sutils/genom_table.cgi? 找到该程序。
2. ClustalW :用于创建全局序列比对,帮助我们查看蛋白质序列中哪些部分是保守的,或者保守的功能氨基酸是否对齐。
3. Jpred :一个基于神经网络预测氨基酸序列二级结构(α - 螺旋和β - 折叠的位置)的网络服务器。可在 http://www.compbio.dundee.ac.uk/www - jpred/index.html 访问。
4. SWISS - MODEL :一个基于网络的蛋白质结构同源建模集成服务,用于将潜在的蓝藻氢化酶成熟内肽酶与大肠杆菌HybD的已知3D结构进行比对。可在 http://swissmodel.expasy.org/ 访问。
5. Jmol :一个免费的开源分子结构查看器,基于Java,可在所有能运行Java运行时环境的操作系统上运行。可在 http://jmol.sourceforge.net/ 访问和下载。

详细操作步骤
  1. 下载大肠杆菌HybD序列
    • 访问 http://www.ncbi.nlm.nih.gov
    • 在查询字段中输入“gi|7546418”(注意:无空格)。
    • 在下拉菜单中选择“Protein”,然后点击“Search”按钮。
    • 打开标题为“Chain A, Hydrogenase Maturating Endopeptidase Hybd From E. coli”的条目。
    • 在“Display Setting”下拉菜单中选择“Apply”。
    • 将结果存储在名为hybd.fasta的文件中,并将序列标识符重命名为E. coli。

以下是hybd.fasta文件的内容:

>ecoli
MRILVLGVGNILLTDEAIGVRIVEALEQRYILPDYVEILDGGTAGMELLGDMANRDHLIIADAIVSKKNA
PGTMMILRDEEVPALFTNKISPHQLGLADVLSALRFTGEFPKKLTLVGVIPESLEPHIGLTPTVEAMIEP
ALEQVLAALRESGVEAIPRSDS
  1. 蓝藻BLAST I

    • 访问 http://www.ncbi.nlm.nih.gov/sutils/genom_table.cgi?
    • 将大肠杆菌HybD序列粘贴到查询窗口。
    • 将“Query”和“Database”都设置为蛋白质。
    • 在同一页面下方选择以下蓝藻:点状念珠藻PCC 73102、念珠藻属PCC 7120、集胞藻属PCC 6803。
    • 点击“BLAST”按钮,然后在接下来的页面点击“View Report”按钮。
    • 仔细查看结果,选择所有在大肠杆菌HybD活性位点包含相同或相似氨基酸的蓝藻命中序列。
    • 点击“Get selected sequences”,并在“FASTA (text)”中选择“Display”。
    • 将这些序列添加到hybd.fasta文件中,并根据其物种来源将其重命名为PCC7120、PCC6803或PCC73102。
  2. 蓝藻BLAST II
    由于大肠杆菌和蓝藻在分类学上的差异较大,可能难以找到同源序列。因此,我们使用第一次BLAST中匹配的第一个蓝藻序列(NP_485466.1)进行再次BLAST。

    • 选择所有在活性位点包含相同或相似氨基酸的新命中序列。
    • 有一个有趣的序列(ID NP_441000.1),虽然只有两个匹配的活性位点氨基酸,但匹配的D(天冬氨酸)与N端的距离非常相似,因此也将其添加到hybd.fasta文件中。

此时,hybd.fasta文件应包含大肠杆菌HybD序列以及来自BLAST I的两个蓝藻候选序列和来自BLAST II的两个额外候选序列。

以下是更新后的hybd.fasta文件内容:

>ecoli
MRILVLGVGNILLTDEAIGVRIVEALEQRYILPDYVEILDGGTAGMELLGDMANRDHLIIADAIVSKKNA
PGTMMILRDEEVPALFTNKISPHQLGLADVLSALRFTGEFPKKLTLVGVIPESLEPHIGLTPTVEAMIEP
ALEQVLAALRESGVEAIPRSDS
>PCC7120-1
MLTIIGCGNLNRSDDAVGVIIAQRLQKYLAENPHPHVQVYDCGTAGMEVMFQARGSKQLVIIDASSTGSE
PGAVFKVPGEELAALPEPSYNLHDFRWDHALAAGRKIFPDDFPQDVTVYLIEAANLDFGLELSPVVQQSA
DLVVEKIVEIIRN
>PCC73102-1
MLTIIGCGNLNRSDDAVGVIIAQHLQKYLAENPHPYVRVYDCGTAGMEVMFQARGSQQLIIIDASSTGSE
PGAVFKVPGKELEALPEPSYNLHDFRWDNALAAGRKIFQNDFPDDVTVYLIEAANLGLGLELSPIVKHSA
DLVFEEVAALISQNINF
>PCC7120-2
MKKTVMVIGYGNDLRSDDGIGQRIANEVASWRLPSVESLAVHQLTPDLADSLASVDLAIFIDACLPVHGF
DVKVQPLFAAGDIDSNVHTGDPRSLLALTKAIYGNCPTAWWVTIPGANFEIGDRFSRTAETGKAIALVKI
IQILDKVNNLWFEVGAVA
>PCC6803-2
MPGQSTKSTLIIGYGNTLRGDDGVGRYLAEEIAQQNWPHCGVISTHQLTPELAEAIAAVDRVIFIDAQLQ
ESANEPSVEVVALKTLEPNELSGDLGHRGNPRELLTLAKILYGVEVKAWWVLIPAFTFDYGEKLSPLTAR
AQAEALAQIRPLVLGER
  1. 计算比对和树状图
    • 可以使用本地安装的ClustalW或访问 http://www.genome.jp/tools/clustalw/ 进行在线操作。
    • 将hybd.fasta文件的内容粘贴到输入窗口(或加载本地存储的文件)。
    • 选择CLUSTAL作为输出格式,然后按下“Execute Multiple Alignment”按钮。
    • 将得到的全局多序列比对保存到名为hybd.align的文本文件中。
    • 根据大肠杆菌序列,检查活性位点氨基酸是否正确对齐。

我们可以通过选择“Rooted phylogenetic tree with branch length (UPGMA)”并点击“Execute”来可视化ClustalW的结果。树状图的分支长度表示序列之间的相关性。聚类结果表明,PCC7120 - 1和PCC73102 - 1聚类在一起,与大肠杆菌HybD也有相似性;PCC7120 - 2和PCC6803 - 2形成另一个聚类。这使我们可以提出一个有趣的假设:念珠藻属PCC 7120中的每个氢化酶可能都有自己的成熟肽酶。

以下是操作流程的mermaid流程图:

graph LR
    A[下载大肠杆菌HybD序列] --> B[蓝藻BLAST I]
    B --> C[蓝藻BLAST II]
    C --> D[计算比对和树状图]

通过以上步骤,我们初步完成了对蓝藻内肽酶同源物的识别和分析。后续还将对二级结构和三级结构进行进一步的研究,以验证这些候选序列是否为真正的氢化酶成熟内肽酶。

探索BLAST的局限与同源建模:识别蓝藻内肽酶同源物

二级结构检查

虽然我们从一级结构(即氨基酸序列)上已经能看出,在蓝藻蛋白质组中识别出的序列是不错的氢化酶成熟肽酶候选序列,即便BLAST的E值不理想。但为了收集更多证据,增强我们的信心,接下来对二级结构进行比较。蛋白质的二级结构特征,如α - 螺旋和β - 折叠,是可以较好地预测的。这里我们使用Jpred,一个基于训练好的神经网络来预测二级结构特征的网络服务器。

使用Jpred的最简单方法是在其高级网页界面中触发批量作业,具体步骤如下:
1. 访问 http://www.compbio.dundee.ac.uk/www - jpred/advanced.html
2. 使用“choose file”按钮选择hybd.fasta文件。
3. 选择“Batch Mode”作为输入类型。
4. 勾选“Skip searching PDB before prediction”。
5. 输入你的电子邮件地址,查询名称设为HybD。
6. 点击“Make Prediction”按钮触发分析。

结果通常会在几分钟内发送到你的电子邮件,类似如下内容:

Your job has completed successfully...

Query:
MLTIIGCGNLNRSDDAVGVIIAQHLQKYLAENPHPYVRVYDCGTAGMEVMFQARGSQQLI
Jpred:
-EEEEEE---------HHHHHHHHHHHHH-------EEEEE-----HHHHHHH----EEE
Conf:
435654068888776527899999998614788874578744787457777644886478

Query:
IIDASSTGSEPGAVFKVPGKELEALPEPSYNLHDFRWDNALAAGRKIFQNDFPDDVTVYL
Jpred:
EEEEE-------EEEEEE------------------HHHHHHHHHHHH------EEEEEE
Conf:
988853788873588880367777777777777763689999999885378884488988

Query:
IEAANLGLGLELSPIVKHSADLVFEEVAALISQNINF
Jpred:
EEE----------HHHHHHHHHHHHHHHHHHHHH---
Conf:
8620067777632689999999999999999884099

The complete set of outputs can be viewed at:
http://www.compbio.dundee.ac.uk/www - jpred/cgi - bin/chklog?jp_TEttI6x

为了量化二级结构的相似性,我们可以使用一个简单但有效的方法,即把序列或二级结构赋值当作文本字符串进行比较,并统计每个位置的匹配情况。以下是实现该功能的AWK脚本:

# USAGE awk -f compare - strings.awk ’ string1’ ’ string2’
# NOTE the leading SPACE characters in the embracing single quotes
BEGIN{
    a = ARGV[1]; b = ARGV[2]
    len_a = length(a)-1; len_b = length(b)-1
    sum_match = 0; sum_mismatch = 0
    if(len_a!=len_b){print "ERROR: UNEQUAL STRING LENGTH"; exit}
    for(i=1;i<=len_a;i++){
        ai = substr(a,i + 1,1); bi = substr(b,i + 1,1)
        if(ai == bi){sum_match++} else{sum_mismatch++}
    }
    print "LENGTH = "len_a
    print "MISMATCHES = "sum_mismatch" ("sum_mismatch/len_a*100"%)"
    print "MATCHES = "sum_match" ("sum_match/len_a*100"%)"
}

以下是该脚本的应用示例,注意字符串要用单引号括起来,且前面要有一个空格字符,以防止前导破折号被解释为AWK参数:

$ awk -f compare - strings.awk ’ ------MRILVLGVGNILLTDEAIG---VRIVEALEQRYILPD
YVEILDGGTAGMELLGDMANRDHLIIADAIVSKKNAPGTMMILRDEEVPALFTNKISPHQLG - LADVLSALRFT
GEFPKKLTLVGVIPESLEPHIGLTPTVEAMIEPALEQVLAALRESGVEAIPRSDS - ’ ’ MPGQSTKSTLIIGY
GNTLRGDDGVG----RYLAEEIAQQNWP - HCGVISTHQLTPELAEAIAAVDRVIFIDAQLQESANEPSVEVVAL
KTLEPNELSGDLGHRGNPRELLTLAKILYG - VEVKAWWVLIPAFTFDYGEKLSPLTARAQAEALAQIRPLVLGE
R----------’
LENGTH = 174
MISMATCHES = 143 (82.1839%)
MATCHES = 31 (17.8161%)

当你将所有蓝藻序列与大肠杆菌序列作为参考进行比较时,会得到类似图中右侧的数值。显然,二级结构的同一性比氨基酸序列要高得多。那么三级结构又如何呢?

三级结构比对(同源建模)

在进入实验室进行实验研究之前,最后一步是测试能否将潜在的蓝藻氢化酶成熟内肽酶与已知的大肠杆菌酶结构进行比对,这种三级结构比对也称为同源建模。我们将使用瑞士巴塞尔大学的SWISS - MODEL服务器。具体操作如下:
1. 访问 http://swissmodel.expasy.org ,并点击“Automated Mode”链接。
2. 需要分别提交每个蓝藻候选序列。
3. 选择结构1CFZ的链A作为模板(该结构来自相关研究)。由于晶体几何结构,结构1CFZ包含六个相同的单体(蛋白质链),所以我们只对单个链进行建模。

提交建模请求后,SWISS - MODEL会自动为你创建一个单独的工作区,并通过电子邮件发送密码。结果会在服务器上保存一周,工作区则不会过期。完成的作业的预测结构可以从结果页面下载为PDB文件,将所有四个结构下载并保存,例如命名为pcc7120 - 1.pdb。

下载并可视化大肠杆菌HybD结构

虽然我们大量使用了HybD的氨基酸序列并将其作为同源建模的模板,但还没有查看过它的结构。该结构的PDB ID为1CFZ,我们可以通过Jmol直接从PDB加载结构文件,步骤如下:
1. 下载Jmol后,假设jmol - 12.2.32是当前工作目录的子文件夹,在终端输入 java -jar jmol–12.2.32/Jmol.jar & ,这将在后台的单独窗口中打开Jmol。
2. 打开菜单“File” -> “Get PDB”,输入“1CFZ”。
3. 可以从菜单执行命令,作为高级用户也可以使用Jmol控制台的丰富命令语言,打开菜单“File” -> “Console…”,会打开一个类似Linux终端的窗口,用于控制Jmol。

以下是一些用于修改结构视图的Jmol命令:

restrict :A # only show chain A
center :A # center the view
cartoon # show secondary structure features
spacefill off # hide filled atoms
wireframe off # hide atom bonds
color structure # color by structure feature
select GLU16:A, ASP62:A, HIS93:A # select particular amino acids
spacefill 120 # show atoms of selected amino acids
wireframe 40 # show bonds of selected amino acids
color cpk # color by atom identity
select CD:A # select cadmium in chain A
spacefill 150 # show selected atom
color orange # color selected atom
总结

通过一系列生物信息学工具和操作,我们从寻找蓝藻中与大肠杆菌内肽酶HybD同源的内肽酶入手,完成了从序列下载、BLAST比对、二级结构预测到三级结构建模以及结构可视化的整个流程。在这个过程中,我们发现仅依靠BLAST可能难以找到同源序列,需要结合二级和三级结构信息以及先验知识。通过ClustalW进行序列比对和树状图分析,我们提出了关于蓝藻氢化酶成熟肽酶的有趣假设。二级结构检查和三级结构比对进一步为候选序列是否为真正的氢化酶成熟内肽酶提供了证据。整个流程如下表所示:
|步骤|操作|工具|
| ---- | ---- | ---- |
|1|下载大肠杆菌HybD序列|GenBank|
|2|蓝藻BLAST I|genomicBLAST|
|3|蓝藻BLAST II|genomicBLAST|
|4|计算比对和树状图|ClustalW|
|5|二级结构检查|Jpred|
|6|三级结构比对(同源建模)|SWISS - MODEL|
|7|下载并可视化大肠杆菌HybD结构|Jmol|

以下是整个流程的mermaid流程图:

graph LR
    A[下载大肠杆菌HybD序列] --> B[蓝藻BLAST I]
    B --> C[蓝藻BLAST II]
    C --> D[计算比对和树状图]
    D --> E[二级结构检查]
    E --> F[三级结构比对(同源建模)]
    F --> G[下载并可视化大肠杆菌HybD结构]

通过这些步骤和分析,我们为进一步的实验研究提供了有价值的信息和方向。

内容概要:本文介绍了ENVI Deep Learning V1.0的操作教程,重点讲解了如何利用ENVI软件进行深度学习模型的训练应用,以实现遥感图像中特定目标(如集装箱)的自动提取。教程涵盖了从数据准备、标签图像创建、模型初始化训练,到执行分类及结果优化的完整流程,并介绍了精度评价通过ENVI Modeler实现一键化建模的方法。系统基于TensorFlow框架,采用ENVINet5(U-Net变体)架构,支持通过点、线、面ROI或分类图生成标签数据,适用于多/高光谱影像的单一类别特征提取。; 适合人群:具备遥感图像处理基础,熟悉ENVI软件操作,从事地理信息、测绘、环境监测等相关领域的技术人员或研究人员,尤其是希望将深度学习技术应用于遥感目标识别的初学者实践者。; 使用场景及目标:①在遥感影像中自动识别和提取特定地目标(如车辆、建筑、道路、集装箱等);②掌握ENVI环境下深度学习模型的训练流程关键参数设置(如Patch Size、Epochs、Class Weight等);③通过模型调优结果反馈提升分类精度,实现高效自动化信息提取。; 阅读建议:建议结合实际遥感项目边学边练,重点关注标签数据制作、模型参数配置结果后处理环节,充分利用ENVI Modeler进行自动化建模参数优化,同时注意软硬件环境(特别是NVIDIA GPU)的配置要求以保障训练效率。
内容概要:本文系统阐述了企业新闻发稿在生成式引擎优化(GEO)时代下的全渠道策略效果评估体系,涵盖当前企业传播面临的预算、资源、内容效果评估四大挑战,并深入分析2025年新闻发稿行业五大趋势,包括AI驱动的智能化转型、精准化传播、首发内容价值提升、内容资产化及数据可视化。文章重点解析央媒、地方官媒、综合门户和自媒体四类媒体资源的特性、传播优势发稿策略,提出基于内容适配性、时间节奏、话题设计的策略制定方法,并构建涵盖品牌价值、销售转化GEO优化的多维评估框架。此外,结合“传声港”工具实操指南,提供AI智能投放、效果监测、自媒体管理舆情应对的全流程解决方案,并针对科技、消费、B2B、区域品牌四大行业推出定制化发稿方案。; 适合人群:企业市场/公关负责人、品牌传播管理者、数字营销从业者及中小企业决策者,具备一定媒体传播经验并希望提升发稿效率ROI的专业人士。; 使用场景及目标:①制定科学的新闻发稿策略,实现从“流量思维”向“价值思维”转型;②构建央媒定调、门户扩散、自媒体互动的立体化传播矩阵;③利用AI工具实现精准投放GEO优化,提升品牌在AI搜索中的权威性可见性;④通过数据驱动评估体系量化品牌影响力销售转化效果。; 阅读建议:建议结合文中提供的实操清单、案例分析工具指南进行系统学习,重点关注媒体适配性策略GEO评估指标,在实际发稿中分阶段试点“AI+全渠道”组合策略,并定期复盘优化,以实现品牌传播的长期复利效应。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值