起始密码子识别与棒球比赛中的隐马尔可夫模型应用
1. 起始密码子识别
1.1 数据收集
在起始密码子识别的研究中,需要将相关字符串数据分为三组,其中一组用于训练,另外两组用于测试。以下是实现数据收集的 GatherData
函数代码:
# yin13.py
def GatherData(sname ,nname ,pct):
with open(sname) as f:
data = f.read ().splitlines ()
np.random.shuffle(data)
N = int(pct*len(data))
trainstarts = data [:N]
notrainstarts = data[N:]
with open(nname) as f:
nonstarts = f.read ().splitlines ()
np.random.shuffle(nonstarts)
return trainstarts , notrainstarts , nonstarts
datadir = # your data directory
np.random.seed( 279 )
starts1 , starts2 , nostarts = GatherData(datadir+'starts.txt', datadir+'nonstarts.txt', 0.1)
print(len(starts1), len(starts2), len(nostarts))
</