python、pandas文件合并、数据去重

最新推荐文章于 2025-05-15 07:28:17 发布

原创

最新推荐文章于 2025-05-15 07:28:17 发布 · 2.3k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#pandas、python、文件合并 #panas数据去重 #python、pandas算去重后出现的次数(UV) #python多文件合并

本文详细介绍了如何使用Python的Pandas库进行文件合并操作，包括不同格式文件的整合，并探讨了数据去重的策略，包括基于唯一标识符的去重和计算去重后的唯一用户数（UV）。同时，还讲解了如何处理多个文件的合并，确保数据一致性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录下有如图60个txt文件，每个txt文件里的数据大概有7000万行

目的：把每个txt文件里的数据去重后合并60个文件为一个总文件，然后把总文件里的数据按第一列、第二列分组

第三列求去重后出现的次数

每个文件的内容如下：

代码如下：

# -*- coding:utf-8 -*-

from datetime import datetime
import pandas as pd
import os

def Main():
    sourcr_dir = '/ford_tongji/uaad/'
    target_dir = '/ford/ford_tongji/uaad/distinct/'
    target_txt = '/ford/ford_tongji/uaad/distinct/merge_result.txt'

    print("开始。。。。。")
    print("加载规则数据")
    pr