35、生物信息学中的结构可视化与虚拟测序操作指南

最新推荐文章于 2025-12-18 08:23:22 发布

assembly8low

最新推荐文章于 2025-12-18 08:23:22 发布

阅读量14

点赞数

CC 4.0 BY-SA版权

分类专栏：数据时代的生物探索文章标签：生物信息学结构可视化 Jmol

本文链接：https://blog.youkuaiyun.com/assembly8low/article/details/155658476

数据时代的生物探索专栏收录该内容

38 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

生物信息学中的结构可视化与虚拟测序操作指南

1. 结构可视化与分析

1.1 初始结构展示与原子高亮

在生物分子结构分析中，我们可以清晰地看到整体结构以及活性位点氨基酸。通过 select CD:A; spacefill 150 命令，能够突出显示镉原子。在生物体内，原本存在的是镍原子，但在结晶过程中被镉原子取代。镍原子由活性位点氨基酸配位，并在N - 末端多肽的蛋白水解切割之前被输送到成熟的氢化酶中。

1.2 蓝细菌结构的查看与比较

1.2.1 单个结构查看

使用Jmol软件查看蓝细菌候选结构。操作步骤如下：
1. 打开Jmol，通过菜单“File”→“Open”选择要可视化的文件。
2. 使用 cartoon 、 spacefill off 和 wireframe off 命令调整结构视图以满足需求。
3. 选择活性位点氨基酸，注意这些氨基酸与1CFZ.pdb中的不同且位置也不同，可参考相关图示读取准确位置，还可在Jmol控制台执行 show sequence 查看当前序列。

1.2.2 多结构叠加展示

为了更全面地比较结构，我们可以将多个结构同时加载并叠加展示。假设已将通过Swiss - Model进行三级结构比对得到的结构分别保存为pcc7120 - 1.pdb、pcc7120 - 2.pdb、pcc73102 - 1.pdb和pcc6803 - 2.pdb，且Jmol.jar位于同一文件夹。具体操作如下：
1. 创建一个名为overlay.jmol的Jmol脚本文件，内容如下：

# execute from Jmol console with "script overlay.jmol"

load 1CFZ.pdb
# becomes model 1.1
load append pcc6803-2.pdb
# becomes model 2.1
load append pcc7120-1.pdb
# becomes model 3.1
load append pcc7120-2.pdb
# becomes model 4.1
load append pcc73102-1.pdb
# becomes model 5.1

select all
cartoon; spacefill off; wireframe off
# format for all structures

select GLU16:A/1.1, ASP62:A/1.1, HIS93:A/1.1, ASP22/2.1, ASP66/2.1, HIS97/2.1,
ASP15/3.1, ASP63/3.1, HIS93/3.1, ASP18/4.1, ASP62/4.1, HIS88/4.1, ASP15/5.1,
ASP63/5.1, HIS93/5.1
spacefill 120; wireframe 40
# format for active site amino acids

select 1.1
# select 1CFZ
restrict :A; center :A
color green
select CD:A/1.1
# select cadmium in chain A
spacefill 150; color gray

select 2.1; color blue
# select PCC6803-2 and paint blue
select 3.1; color yellow
# select PCC7120-1 and paint yellow
select 4.1; color orange
# select PCC7120-2 and paint orange
select 5.1; color red
# select PCC73102-1 and paint red

models 0
# overlay all structures

在保存PDB文件的文件夹中，通过 java -jar Jmol.jar & 在后台打开Jmol。
通过菜单“File”→“Console…”打开Jmol终端。
在Jmol控制台输入 script overlay.jmol 并回车，Jmol将执行脚本中的所有命令，最终实现所有结构的叠加展示。

1.3 Jmol动画操作

使用以下命令可以让Jmol以每秒一帧的速度循环展示所有结构：

animation fps 1
# sets frame rate to 1 frame per sec
animation mode loop
# restart after each run
animation on
# start animation

若要停止动画，可使用 animation off 命令；若要再次显示所有结构，使用 models 0 命令。

1.4 分析总结

我们对大肠杆菌的氢化酶成熟肽酶HybD与三种蓝细菌蛋白质组进行了BLAST比对，从两个满意的比对结果中选取最佳结果再次对选定的蓝细菌进行BLAST，又获得了另外两个满意的序列，E值范围从3e - 13到4.5。通过对一级、二级和三级结构的比对，我们更加确信蓝细菌中存在与HybD同源的蛋白。结构叠加显示，尽管氨基酸序列差异很大，但3D结构却惊人地保守。

2. pUC18c克隆载体的虚拟测序

2.1 项目概述

本项目的目标是对pUC18c克隆载体进行测序，主要包括以下几个部分：
1. 下载克隆载体。
2. 运行虚拟测序程序。
3. 组装测序得到的虚拟序列。

2.2 生物信息学工具

本项目将使用以下几种免费的生物信息学软件工具，这些软件均可从指定网页下载：
| 工具名称 | 功能描述 |
| ---- | ---- |
| Sequencer | 由Bernhard Haubold开发的虚拟测序机，可根据输入的基因组序列、所需的覆盖度和平均序列读取长度模拟DNA测序过程。 |
| TIGR Assembler | 由The Institute for Genomic Research（TIGR）开发的经典开放获取组装工具，用于从较小的序列片段构建所有可能的一致序列（重叠群）。 |
| Dotter | 用于详细比较两个序列的图形点图程序，可直观展示序列之间的相似性。 |
| GenBank | 美国国家生物技术信息中心（NCBI）托管的数据库，可获取pUC18c克隆载体的序列。 |

2.3 详细操作步骤

2.3.1 创建工作目录

首先，打开终端窗口，在主目录下创建一个名为Sequencing的目录，并进入该目录：

$ cd
$ pwd
/home/rw
$ mkdir Sequencing
$ cd Sequencing/
$ pwd
/home/rw/Sequencing

2.3.2 下载pUC18c序列

操作步骤如下：
1. 打开网页浏览器，访问NCBI主页：http://www.ncbi.nlm.nih.gov 。
2. 将搜索下拉菜单设置为Nucleotide，输入pUC18c。
3. 选择名为“pUC18c cloning vector”的条目L09136。
4. 点击该条目，在显示下拉菜单中选择“FASTA”，在发送下拉菜单中选择“this page to text”，然后点击“Send”。
5. 将文件以文本格式保存到Sequencing目录中，命名为puc18c.seq。

2.3.3 下载并设置虚拟测序仪

从指定网页下载虚拟测序软件工具，保存为sequencer文件到Sequencing目录。
使用 chmod u + x sequencer 命令使文件可执行：

$ ls -lh
total 24K
-rw-rw-r-- 1 rw rw 2.8K Jul 31 18:17 puc18c.seq
-rw-rw-r-- 1 rw rw 18K May 18 2006 sequencer
$ chmod u+x sequencer
$ ls -lh
total 24K
-rw-rw-r-- 1 rw rw 2.8K Jul 31 18:17 puc18c.seq
-rwxrw-r-- 1 rw rw 18K May 18 2006 sequencer

运行软件，查看其功能和参数：

$ ./sequencer
sequencer version 1.0, copyright (c) 2004, Bernhard Haubold
purpose: simulate shotgun sequencing
arguments:
-i input file in FASTA format
[-o output file; default: \textit{stdout}]
[-c coverage; default: 1.0]
[-l mean fragment length; default: 500]
[-r circular genome?; default: linear]
[-s seed for random number generator (< 0); default: system clock]
[-n length of output lines; default: 50]
[-h print help; default: do not print help]

2.3.4 下载并安装TIGR Assembler

检查C - Shell是否已安装：

$ csh
% exit
% exit
$

若未安装，在Ubuntu Linux系统中可使用以下命令安装：

$ csh
The program ’csh’ can be found in the following packages:
* csh
* tcsh
Try: sudo apt-get install <selected package>
$ sudo apt-get install csh

从指定网页下载TIGR Assembler软件，保存到Sequencing目录。该软件以.tar.gz压缩包形式提供，使用以下命令解压：

$ ls -lh
total 3.3M
-rw-rw-r-- 1 rw rw 2.8K Jul 31 18:17 puc18c.seq
-rwxrw-r-- 1 rw rw 18K May 18 2006 sequencer
-rwxrwx--- 1 rw rw 3.3M Aug 3 09:50 TIGR_Assembler_v2.tar.gz
$ gunzip TIGR_Assembler_v2.tar.gz
$ tar -xf TIGR_Assembler_v2.tar
$ ls -lh
total 17M
-rw-rw-r-- 1 rw rw 2.8K Jul 31 18:17 puc18c.seq
-rwxrw-r-- 1 rw rw 18K May 18 2006 sequencer
drwxr-xr-x 6 rw rw 4.0K Apr 21 2003 TIGR_Assembler_v2
-rwxrwx--- 1 rw rw 17M Aug 3 09:50 TIGR_Assembler_v2.tar

安装软件：

$ cd TIGR_Assembler_v2/src/
$ pwd
/home/rw/Sequencing/TIGR_Assembler_v2/src
$ make
cc -O -c ./asmg.c -o ../obj/asmg.o
In file included from asmg.c:12:
matrices.h:163:8: warning: extra tokens at end of #endif directive
In file included from asmg.c:13:
...
$ cd ..
$ pwd
/home/rw/Sequencing/TIGR_Assembler_v2
$ ls
bin COPYRIGHT data LICENSE obj README src
$ PATH=$(pwd)/bin:$PATH
$ export PATH
$ cd ~/Sequencing/
$ pwd
/home/rw/Sequencing
$ run_TA
shift: No more words.
$

2.3.5 下载并设置Dotter

从指定网页下载Dotter软件到Sequencing目录，若从开发者主页下载（http://sonnhammer.sbc.su.se/download/software/dotter/dotter.LIN ），需将文件名改为dotter。
使文件可执行：

$ pwd
/home/rw/Sequencing
$ wget "http://www.staff.hs-mittweida.de/wuenschi/data/media/compbiolbook/dotter"
Resolving www.staff.hs-mittweida.de (www.staff.hs-mittweida.de)...
141.55.192.74
...
Length: 4804333 (4.6M) [text/plain]
Saving to: ‘dotter’
100%[======================================>] 4,804,333 1.03M/s in 5.0s
2012-08-03 11:15:58 (945 KB/s) - ‘dotter’ saved [4804333/4804333]
$ ls -lh
total 22M
-rw-rw-r-- 1 rw rw 4.6M May 18 2006 dotter
-rw-rw-r-- 1 rw rw 2.8K Jul 31 18:17 puc18c.seq
-rwxrw-r-- 1 rw rw 18K May 18 2006 sequencer
drwxr-xr-x 6 rw rw 4.0K Apr 21 2003 TIGR_Assembler_v2
-rwxrwx--- 1 rw rw 17M Aug 3 09:50 TIGR_Assembler_v2.tar
$ chmod u+x dotter
$ ./dotter
Dotter - Sequence dotplots with image enhancement tools.
Reference: Sonnhammer ELL & Durbin R (1995). A dot-matrix program
with dynamic threshold control suited for genomic DNA and protein
sequence analysis. Gene 167(2):GC1-10.
Usage: dotter [options] <horizontal_sequence> <vertical_sequence>
[X options]
Allowed types:
Protein - Protein
DNA - DNA
DNA - Protein
Options:
-b <file> Batch mode, write dotplot to <file>
-l <file> Load dotplot from <file>
-m <float> Memory usage limit in Mb (default 0.5)
-z <int> Set zoom (compression) factor
-p <int> Set pixel factor manually (ratio pixelvalue/score)
-W <int> Set sliding window size. (K => Karlin/Altschul estimate)
-M <file> Read in score matrix from <file>
(Blast format; Default: Blosum62).
-F <file> Read in sequences and data from <file>
(replaces sequencefiles).
-f <file> Read feature segments from <file>
-H Do not calculate dotplot at startup.
-R Reversed Greyramp tool at start.
-r Reverse and complement horizontal_sequence (DNA vs Protein)
-D Don’t display mirror image in self comparisons
-w For DNA: horizontal_sequence top strand only (Watson)
-c For DNA: horizontal_sequence bottom strand only (Crick)
-q <int> Horizontal_sequence offset
-s <int> Vertical_sequence offset
...
Version 3.1, compiled Dec 4 2002
$

若出现 Gtk - WARNING : Failed to load module “libgtk - vector - screenshot.so” 警告，可忽略。
3. 绘制pUC18c载体自身的点图：

$ ./dotter puc18c.seq puc18c.seq

此时会打开三个窗口，分别显示点图、比对工具和灰度斜坡工具。通过按住鼠标左键并移动鼠标，可在点图中定位十字准线，同时比对工具会显示当前十字准线位置的比对结果。

2.3.6 虚拟测序

使用Sequencer软件对pUC18c DNA序列进行虚拟测序，以下是不同覆盖度下的测序示例：

$ pwd
/home/rw/Sequencing
$ ./sequencer -c 1 -l 800 -i puc18c.seq
>Seq_1_696
ATTTTTATAGGTTAATGTCATGATAATAATGGTTTCTTAGACGTCAGGTG
...
GCCTTGATCGTTGGGAACCGGAGCTGAATGAAGCCATACCAAACGA
>Seq_4_788
CGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAAAAAGCGGTTAG
...
CTATAAAAATAGGCGTATCACGAGGCCCTTTCGTC
$ ./sequencer -c 5 -l 800 -i puc18c.seq
>Seq_1_797
AACTCGGTCGCCGCATACACTATTCTCAGAATGACTTGGTTGAGTACTCA
...
>Seq_19_822
CTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGC
...
ACTGGTGAGTACTCAACCAAGT

Sequencer软件的主要参数如下：
| 参数 | 描述 |
| ---- | ---- |
| -c | 覆盖度，即每个核苷酸平均被测序的次数。 |
| -l | 序列的平均长度。 |
| -i | 包含FASTA格式DNA序列的输入文件。 |
| -o | 保存结果的输出文件，若未指定则在屏幕上显示结果。 |

可以看到，覆盖度越高，得到的序列数量越多。接下来，我们再次运行Sequencer并将结果保存到名为output的文件中，然后使用Dotter可视化测序片段与pUC18c序列：

$ ./sequencer -c 1 -l 800 -i puc18c.seq -o output
$ ./dotter puc18c.seq output
Detected sequence types: DNA vs. DNA gi|209210|gb Karlin/Altschul
statistics for these sequences and score matrix:
K = 0.173
Lambda = 0.191
=> Expected MSP score in a 100x100 matrix = 38.973

通过以上一系列操作，我们完成了pUC18c克隆载体的虚拟测序过程，包括载体序列的下载、虚拟测序、组装工具的安装以及测序结果的可视化分析。这些操作在生物信息学研究中具有重要的应用价值，能够帮助我们更好地理解和分析生物分子的结构和序列信息。

mermaid流程图

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(创建Sequencing目录):::process --> B(下载pUC18c序列):::process
    B --> C(下载并设置Sequencer):::process
    C --> D(下载并安装TIGR Assembler):::process
    D --> E(下载并设置Dotter):::process
    E --> F(虚拟测序):::process
    F --> G(可视化测序结果):::process

以上就是本次生物信息学操作的详细内容，涵盖了从结构可视化到虚拟测序的完整流程，希望对相关领域的研究人员有所帮助。

3. 虚拟测序结果分析与总结

3.1 测序结果的特点

在虚拟测序过程中，我们使用了不同的覆盖度进行测序。从结果可以看出，覆盖度对测序得到的序列数量有显著影响。覆盖度越高，每个核苷酸被测序的次数就越多，从而得到的序列数量也越多。例如，当覆盖度为1时，得到了4条序列；而当覆盖度提高到5时，得到了19条序列。

测序得到的序列以FASTA格式输出，并且根据序列编号和长度进行命名。例如， >Seq_1_696 表示这是第1条序列，长度为696个核苷酸。这种命名方式方便我们对测序结果进行管理和分析。

3.2 测序结果的可视化

通过Dotter软件，我们可以将测序片段与pUC18c序列进行可视化比较。具体操作是使用 ./dotter puc18c.seq output 命令，其中 puc18c.seq 是原始的pUC18c克隆载体序列， output 是测序结果文件。

运行该命令后，会打开三个窗口，分别显示点图、比对工具和灰度斜坡工具。点图可以直观地展示测序片段与原始序列之间的相似性。通过按住鼠标左键并移动鼠标，我们可以在点图中定位十字准线，同时比对工具会显示当前十字准线位置的比对结果。这种可视化方式有助于我们快速发现测序片段与原始序列之间的匹配区域和差异区域。

3.3 工具的协同作用

在整个虚拟测序项目中，我们使用了多个生物信息学工具，包括Sequencer、TIGR Assembler和Dotter。这些工具各自具有不同的功能，但相互协作，共同完成了从克隆载体下载到测序结果分析的整个流程。

工具名称	功能	在项目中的作用
Sequencer	模拟DNA测序过程	生成测序片段，为后续的组装和分析提供数据
TIGR Assembler	从较小的序列片段构建一致序列	对测序得到的片段进行组装，得到更长的重叠群
Dotter	绘制点图，比较序列相似性	可视化测序片段与原始序列之间的关系，辅助分析测序结果

3.4 总结与展望

通过本次虚拟测序项目，我们成功地对pUC18c克隆载体进行了测序，并对测序结果进行了分析。整个过程涉及到多个生物信息学工具的使用，包括序列下载、虚拟测序、组装和可视化等步骤。这些操作不仅让我们深入了解了生物信息学在基因测序中的应用，还为我们进一步研究生物分子的结构和功能提供了重要的技术支持。

在未来的研究中，我们可以进一步优化测序参数，提高测序的准确性和效率。同时，我们还可以结合其他生物信息学方法，如基因注释、功能预测等，对测序结果进行更深入的分析，从而更好地理解生物分子的生物学意义。

mermaid流程图

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(测序结果特点分析):::process --> B(测序结果可视化):::process
    B --> C(工具协同作用分析):::process
    C --> D(总结与展望):::process

4. 操作要点回顾与注意事项

4.1 操作要点回顾

结构可视化 ：使用Jmol软件进行生物分子结构的可视化和分析，通过脚本文件实现多个结构的叠加展示和动画操作。
虚拟测序 ：创建工作目录，下载pUC18c克隆载体序列，安装和设置Sequencer、TIGR Assembler和Dotter等工具，进行虚拟测序并对结果进行可视化分析。

4.2 注意事项

软件安装 ：在安装TIGR Assembler时，需要确保C - Shell已安装，并且按照正确的步骤进行编译和配置。如果遇到编译警告，可根据具体情况进行处理。
命令执行 ：在执行命令时，要确保当前工作目录正确，并且输入的参数和文件名准确无误。例如，在运行 script overlay.jmol 或 ./sequencer -c 1 -l 800 -i puc18c.seq 等命令时，要注意文件路径和参数的设置。
警告处理 ：在使用Dotter软件时，如果出现 Gtk - WARNING : Failed to load module “libgtk - vector - screenshot.so” 警告，可忽略该警告，不影响软件的正常使用。

4.3 常见问题及解决方法

问题描述	可能原因	解决方法
软件无法正常运行	软件未正确安装、文件路径错误、缺少依赖库等	检查软件安装步骤，确保文件路径正确，安装所需的依赖库
测序结果不符合预期	覆盖度设置不合理、输入文件格式错误等	调整覆盖度参数，检查输入文件是否为FASTA格式
可视化结果显示异常	软件版本不兼容、图形库问题等	更新软件版本，检查图形库是否正确安装

mermaid流程图

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(操作要点回顾):::process --> B(注意事项):::process
    B --> C(常见问题及解决方法):::process