Biopython教程：深入理解Seq对象及其生物信息学操作-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00576/article/details/148524129

Biopython教程：深入理解Seq对象及其生物信息学操作

biopython Official git repository for Biopython (originally converted from CVS) 项目地址: https://gitcode.com/gh_mirrors/bi/biopython

引言

在生物信息学领域，序列数据是最基础也是最重要的研究对象。Biopython作为Python生态中最重要的生物信息学工具包之一，提供了Seq对象来处理生物序列。本文将深入讲解Seq对象的特性和使用方法，帮助读者掌握这一核心工具。

Seq对象基础

Seq对象是Biopython中表示生物序列的核心类，虽然看起来像普通的Python字符串，但它提供了许多生物信息学特有的方法。

创建Seq对象

from Bio.Seq import Seq
my_seq = Seq("GATCG")

基本操作

Seq对象支持大多数字符串操作：

# 获取长度
len(my_seq)  # 输出: 5

# 遍历序列
for index, letter in enumerate(my_seq):
    print(f"{index} {letter}")

# 索引访问
print(my_seq[0])  # 第一个碱基 'G'
print(my_seq[-1])  # 最后一个碱基 'G'

序列计数与GC含量计算

非重叠计数

Seq("AAAA").count("AA")  # 输出: 2

GC含量计算

虽然可以手动计算，但推荐使用专用函数：

from Bio.SeqUtils import gc_fraction
gc_fraction(my_seq)  # 自动处理大小写和模糊碱基

序列切片与操作

基本切片

my_seq = Seq("GATCGATGGGCCTATATAGGATCGAAAATCGC")
my_seq[4:12]  # 输出: Seq('GATGGGCC')

步长切片

获取密码子位置：

my_seq[0::3]  # 第一密码子位置
my_seq[1::3]  # 第二密码子位置
my_seq[2::3]  # 第三密码子位置

序列反转

my_seq[::-1]  # 反向序列

序列转换与拼接

转换为字符串

str(my_seq)  # 转换为普通字符串

序列拼接

seq1 = Seq("ACGT")
seq2 = Seq("AACCGG")
seq1 + seq2  # 输出: Seq('ACGTAACCGG')

使用join方法

contigs = [Seq("ATG"), Seq("ATCCCG"), Seq("TTGCA")]
spacer = Seq("N"*10)
spacer.join(contigs)  # 输出: Seq('ATGNNNNNNNNNNATCCCGNNNNNNNNNNTTGCA')

大小写转换

dna_seq = Seq("acgtACGT")
dna_seq.upper()  # 全大写
dna_seq.lower()  # 全小写

核苷酸序列的特殊操作

互补序列与反向互补序列

my_seq.complement()  # 互补序列
my_seq.reverse_complement()  # 反向互补序列

转录与翻译

转录

coding_dna = Seq("ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG")
messenger_rna = coding_dna.transcribe()  # T→U

翻译

messenger_rna.translate()  # 标准遗传密码表
coding_dna.translate(table=2)  # 使用线粒体遗传密码表

高级翻译选项

# 翻译至第一个终止密码子
coding_dna.translate(to_stop=True)

# 指定终止符号
coding_dna.translate(stop_symbol="@")

# 处理完整CDS
gene.translate(table="Bacterial", cds=True)  # 正确处理起始密码子

密码子表

Biopython内置了多种遗传密码表：

from Bio.Data import CodonTable
standard_table = CodonTable.unambiguous_dna_by_name["Standard"]
mito_table = CodonTable.unambiguous_dna_by_name["Vertebrate Mitochondrial"]