【python pandas】合并文件并剔除重复数据

陈晓明start

已于 2023-05-15 18:16:10 修改

阅读量1.4k

点赞数 1

分类专栏： python 文章标签： pandas python 数据分析

于 2023-05-15 11:24:56 首次发布

本文链接：https://blog.youkuaiyun.com/cxm19830125/article/details/130680836

版权

python 专栏收录该内容

90 篇文章

订阅专栏

该代码示例展示了如何利用Python的Pandas库处理多个CSV文件，将所有数据合并到一个DataFrame中，然后通过drop_duplicates函数删除重复的身份证号，保留最新数据，最后将处理后的数据保存为新的CSV文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.背景

工作中需要处理多个文件，每个文件里面有重复的数据，剔除重复数据，保留最新的数据

2.代码：

import pandas as pd
import os

dl= []
#person_list是文件路径
for i in range(person_list_len):
    #把文件df全部集合进列表dl
    dl.append(pd.read_csv(person_list[i], encoding='utf-8'))
#集合数据
df=pd.concat(dl)
#删除重复的数据
df.drop_duplicates(subset=['身份证号'],keep='last',inplace=True)
#保存数据到cvs
new_file = 'D:\\xxx\\xxx\\合并_%s.csv'%file_name
if os.path.exists(new_file):
    os.remove(new_file)
df.to_csv(new_file)