通常蛋白质从数据库中下载后,会有如下的信息,

每个蛋白质第一行的信息,对于只关注序列的人来说,是多余的,如何将第一行去掉,并将一条蛋白质完整显示,用以下代码:
def read_file(file_name):
pro_swissProt = []
with open(file_name, 'r') as fp:
protein = ''
for line in fp:
if line.startswith('>sp|'):#作用:判断字符串是否以指定字符或子字符串开头
pro_swissProt.append(protein)
protein = ''
elif line.startswith('>tr|') :
pro_swissProt.append(protein)
protein = ''
elif line.startswith('>sp|') == False:
protein = protein+line.strip()
pro_swissProt.append(protein) #将最后一条蛋白质加进去
return pro_swissProt[1:]
file_1 = '/brain/cancer_fasta_PA.txt'
# positive seq protein A
pos_seq_protein_A = read_file(file_1)
最后,大家要开心哦~
本文介绍如何使用Python代码读取SwissProt文件,去除首行元信息,只显示完整蛋白质序列。通过示例代码展示如何简化处理过程,便于关注实际序列数据的分析者使用。
1280

被折叠的 条评论
为什么被折叠?



