蛋白质序列处理,只保存蛋白质序列,而不存ID等

本文介绍如何使用Python代码读取SwissProt文件,去除首行元信息,只显示完整蛋白质序列。通过示例代码展示如何简化处理过程,便于关注实际序列数据的分析者使用。
部署运行你感兴趣的模型镜像

通常蛋白质从数据库中下载后,会有如下的信息,

 每个蛋白质第一行的信息,对于只关注序列的人来说,是多余的,如何将第一行去掉,并将一条蛋白质完整显示,用以下代码:

def read_file(file_name):
    pro_swissProt = []
    with open(file_name, 'r') as fp:
        protein = ''
        for line in fp:
            if line.startswith('>sp|'):#作用:判断字符串是否以指定字符或子字符串开头
                pro_swissProt.append(protein)
                protein = ''
            elif line.startswith('>tr|') :
                pro_swissProt.append(protein)
                protein = ''
            elif line.startswith('>sp|') == False:
                protein = protein+line.strip()
    pro_swissProt.append(protein)          #将最后一条蛋白质加进去
    return   pro_swissProt[1:]   


file_1 = '/brain/cancer_fasta_PA.txt'


# positive seq protein A
pos_seq_protein_A = read_file(file_1)

最后,大家要开心哦~

您可能感兴趣的与本文相关的镜像

Python3.10

Python3.10

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

Python 处理蛋白质序列数据可以从多个方面进行,以下为几种常见的处理方法: - **读取 FASTA 文件**:大多数蛋白质序列以 FASTA 格式提供,可使用 Biopython 库读取 FASTA 文件中的蛋白质序列。示例代码如下: ```python from Bio import SeqIO # 读取 FASTA 文件 records = SeqIO.parse("protein.fasta", "fasta") for record in records: print("序列 ID:", record.id) print("序列描述:", record.description) print("蛋白质序列:", record.seq) ``` - **序列数值化表示**:可以将蛋白质序列进行数值化表示,以方便后续的机器学习或数据分析任务。 - **序列拆分**:当一个 FASTA 文件中包含多个序列,而某些工具需要单条序列输入时,就需要将其拆分。示例代码如下: ```python from Bio import SeqIO # 读取包含多个序列的 FASTA 文件 records = list(SeqIO.parse("multi_protein.fasta", "fasta")) # 拆分序列保存为单个文件 for i, record in enumerate(records): SeqIO.write(record, f"protein_{i}.fasta", "fasta") ``` - **DNA 序列转换为蛋白质序列**:由于密码子的三联核苷酸形成单个氨基酸,可将 DNA 序列转换为其蛋白质等价物。示例代码如下: ```python # 密码子表 codon_table = { 'ATA': 'I', 'ATC': 'I', 'ATT': 'I', 'ATG': 'M', 'ACA': 'T', 'ACC': 'T', 'ACG': 'T', 'ACT': 'T', # 其他密码子... } def dna_to_protein(seq): protein_seq = "" if len(seq) % 3 == 0: for i in range(0, len(seq), 3): codon = seq[i:i+3] if codon in codon_table: protein_seq += codon_table[codon] return protein_seq # 示例 DNA 序列 dna_seq = "ATGCGT" protein_seq = dna_to_protein(dna_seq) print("蛋白质序列:", protein_seq) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值