进行数据整理时所写的脚本,使用CD-HIT去冗余,设置阈值为100%,将有多条的簇留下来。
cd1.txt:

从上图中找出找出100%的簇,放到cd2.txt中
cd2.txt

with open('cd1.txt', 'r') as f:
lines = f.readlines()#按行读取文件
with open('cd2.txt', 'w') as f_w:
for i in range(len(lines)):
if(lines[i][0] == '0' and lines[i+1][0]=='1'):#将有100%的簇写入到cd2.txt文件中
f_w.write(lines[i - 1])
print(i, "***", lines[i - 1])
f_w.write(lines[i])
print(i, "***", lines[i])
f_w.write(lines[i + 1])
print(i, "***", lines[i + 1])
i = i + 2
while(lines[i][0] != '>'):
f_w.write(lines[i])
print(i, "***", lines[i])
i = i + 1
continue
else:
i = i + 1
本文介绍了一个使用Python编写的脚本,该脚本利用CD-HIT工具进行数据整理,通过设置100%的相似度阈值来去除数据集中的冗余序列,仅保留完全相同的簇。具体实现过程包括读取原始文件、筛选满足条件的簇并将其写入新的文件中。
347

被折叠的 条评论
为什么被折叠?



