使用Python删除具有某些特征的几行数据

最新推荐文章于 2025-04-22 09:09:30 发布

原创最新推荐文章于 2025-04-22 09:09:30 发布 · 1.2k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #csv #列表

Python 专栏收录该内容

5 篇文章

订阅专栏

本文介绍了一个使用Python编写的脚本，该脚本利用CD-HIT工具进行数据整理，通过设置100%的相似度阈值来去除数据集中的冗余序列，仅保留完全相同的簇。具体实现过程包括读取原始文件、筛选满足条件的簇并将其写入新的文件中。

部署运行你感兴趣的模型镜像

进行数据整理时所写的脚本，使用CD-HIT去冗余，设置阈值为100%，将有多条的簇留下来。

cd1.txt：

在这里插入图片描述
从上图中找出找出100%的簇，放到cd2.txt中

cd2.txt

在这里插入图片描述

with open('cd1.txt', 'r') as f:
    lines = f.readlines()#按行读取文件
with open('cd2.txt', 'w') as f_w:
    for i in range(len(lines)):
        if(lines[i][0] == '0' and lines[i+1][0]=='1'):#将有100%的簇写入到cd2.txt文件中
            f_w.write(lines[i - 1])
            print(i, "***", lines[i - 1])
            f_w.write(lines[i])
            print(i, "***", lines[i])
            f_w.write(lines[i + 1])
            print(i, "***", lines[i + 1])
            i = i + 2
            while(lines[i][0] != '>'):
                f_w.write(lines[i])
                print(i, "***", lines[i])
                i = i + 1
            continue
        else:
            i = i + 1