利用Python实现csv文件的合并和去重

最新推荐文章于 2023-04-06 17:11:08 发布

原创最新推荐文章于 2023-04-06 17:11:08 发布 · 1.6w 阅读

74 ·

CC 4.0 BY-SA版权

自学专栏收录该内容

59 篇文章

订阅专栏

本文介绍了两种合并多个CSV文件并去除重复记录的方法。第一种方法利用Python的glob模块查找所有CSV文件，然后逐个读取并写入新的CSV文件中。第二种方法使用pandas库的read_csv和to_csv函数，直接将多个CSV文件的数据读取合并，并保存为单一文件。最后，通过pandas的drop_duplicates函数去除重复记录。

部署运行你感兴趣的模型镜像

方法一：

这种方法需要引入glob模块

glob模块是最简单的模块之一，内容非常少。用它可以查找符合特定规则的文件路径名。跟使用windows下的文件搜索差不多。查找文件只用到三个匹配符：”*”, “?”, “[]”。”*”匹配0个或多个字符；”?”匹配单个字符；”[]”匹配指定范围内的字符，如：[0-9]匹配数字。

具体实现如下：

import pandas as pd
import glob

def hebing():
    csv_list = glob.glob('F:/*.csv')
    print(u'共发现%s个CSV文件'% len(csv_list))
    print(u'正在处理............')
    for i in csv_list:
        fr = open(i,'r').read()
        with open('F:/hebing.csv','a') as f:
            f.write(fr)
    print(u'合并完毕！')

def quchong(file):
    df = pd.read_csv(file,header=0)
    datalist = df.drop_duplicates()
    datalist.to_csv(file)

if __name__ == '__main__':
    hebing()
    quchong("F:/hebing.csv")

方法二：

通过pandas包的read_csv和to_csv两个方法来完成。

import pandas as pd
import glob

outputfile='f:/hebing.csv'

csv_list = glob.glob('F:/*.csv')
print(u'共发现%s个CSV文件'% len(csv_list))
print(u'正在处理............')
def hebing():
    for inputfile in csv_list:
        f=open(inputfile)
        data=pd.read_csv(f)
        data.to_csv(outputfile,mode='a',index=False,header=None)
    print('完成合并')
    
def quchong(file):
    df = pd.read_csv(file,header=0)
    datalist = df.drop_duplicates()
    datalist.to_csv(file)
    print('完成去重')

if __name__ == '__main__':
    hebing()
    quchong(outputfile)

您可能感兴趣的与本文相关的镜像

Python3.11

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

利用Python实现csv文件的合并和去重

3 条评论