python 去掉.csv文件的重复行,去掉.txt重复行保存为.csv

该博客介绍了如何使用Python的pandas库进行CSV文件的拼接与去重操作。首先,通过`pd.concat`函数将两个CSV文件竖向合并成一个新文件,然后通过读取新文件并利用列表来检查及排除重复行,将结果保存为新的CSV文件。此外,还展示了从.txt文件读取数据,利用`drop_duplicates`方法去除重复序列,并将结果保存为.csv文件。
部署运行你感兴趣的模型镜像

数据集通常需要去掉文件中的重复行,以下是操作代码:

####将2个.csv拼接,并保存.csv文件

df1 = pd.read_csv(r'/Ce/NO.1/CeNegative.csv', header=None)#读取第一个文件

df2 = pd.read_csv(r'/Ce/NO.1/CePositive.csv', header=None)#读取第二个文件

file1= [df1, df2]

outfile1 = pd.concat(file1)#竖着拼接
outfile1.to_csv("/data/proteinall"+".csv", index=0, header=None, sep=',')

#####去掉重复行

inFile = open('/data/proteinall.csv','r') #

outFile = open('/data/protein1.csv','w')  #最后保存的.csv文件

listLines = []

for line in inFile:

    if line in listLines:
        continue

    else:
        outFile.write(line)
        listLines.append(line)

outFile.close()

inFile.close()

以下是读取.txt,去掉重复行,保存为.csv

####加载.txt,去掉重复序列,保存为.csv
import numpy as np
import pandas as pd
import copy

def read_traingingData(file_name):
    # read sample from a file
    seq = []
    with open(file_name, 'r') as fp:
        i = 0
        for line in fp:
            seq.append(line.split('\n')[0])
            i = i+1       
    return   seq  

file_1 = '/Ce/Ce.AC_N1.txt'

protein_A = read_traingingData(file_1)

df_protein=pd.DataFrame(protein_A)

seq_protein = df_protein.drop_duplicates()
seq_protein.to_csv('/home/aita/4444/LX/Ziqi/protein.csv',index=0,header= None,encoding='gbk')

您可能感兴趣的与本文相关的镜像

Python3.11

Python3.11

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值