一、EST数据来源
本研究所用的小麦EST数据库来自GenBank数据库(截止2013年12月),共1286914条序列
二、低质量序列部分以及污染序列去除
通过逐条扫描EST序列去掉EST序列中低质量部分。具体步骤为,从5'端开始向3'端扫描每一条EST序列,如果在10bp长度范围内出现两次以上除'A','T','C','G'外的字符,则将该10bp序列以及3'端序列去除。python程序是:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
from Bio import SeqIO
out = open('low_quality_wheat_est.fasta', 'w')
record_dict = SeqIO.index('wheat_est.fasta', "fasta")
a = []
for key in record_dict.keys():
for i in range(len(str(record_dict[key].seq))-10):
new = record_dict[key].seq.upper()[i:(i+10)]
if new.count