蛋白质序列处理，只保存蛋白质序列，而不存ID等

最新推荐文章于 2025-12-22 13:59:14 发布

原创最新推荐文章于 2025-12-22 13:59:14 发布 · 1.1k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python #深度学习 #神经网络 #tensorflow

蛋白质基础专栏收录该内容

23 篇文章

订阅专栏

本文介绍如何使用Python代码读取SwissProt文件，去除首行元信息，只显示完整蛋白质序列。通过示例代码展示如何简化处理过程，便于关注实际序列数据的分析者使用。

部署运行你感兴趣的模型镜像

通常蛋白质从数据库中下载后，会有如下的信息，

每个蛋白质第一行的信息，对于只关注序列的人来说，是多余的，如何将第一行去掉，并将一条蛋白质完整显示，用以下代码：

def read_file(file_name):
    pro_swissProt = []
    with open(file_name, 'r') as fp:
        protein = ''
        for line in fp:
            if line.startswith('>sp|'):#作用：判断字符串是否以指定字符或子字符串开头
                pro_swissProt.append(protein)
                protein = ''
            elif line.startswith('>tr|') :
                pro_swissProt.append(protein)
                protein = ''
            elif line.startswith('>sp|') == False:
                protein = protein+line.strip()
    pro_swissProt.append(protein)          #将最后一条蛋白质加进去
    return   pro_swissProt[1:]   


file_1 = '/brain/cancer_fasta_PA.txt'


# positive seq protein A
pos_seq_protein_A = read_file(file_1)

最后，大家要开心哦~

您可能感兴趣的与本文相关的镜像