Pandas---去重drop_duplicates和duplicated

最新推荐文章于 2024-12-18 14:34:44 发布

Ethan Lee

最新推荐文章于 2024-12-18 14:34:44 发布

阅读量368

点赞数

CC 4.0 BY-SA版权

分类专栏：程序开发之路数据分析

本文链接：https://blog.youkuaiyun.com/weixin_43849761/article/details/93859349

程序开发之路同时被 2 个专栏收录

8 篇文章

订阅专栏

数据分析

6 篇文章

订阅专栏

本文介绍了一个数据去重的实际案例，涉及时间、ID和等级三列数据。通过使用Python的pandas库，首先对数据进行整体去重，然后针对同一天同一ID下不同等级的情况进行特殊处理，最终确保数据的唯一性和准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天分享一个去重在项目中的小应用
主要有三列：时间，ID，等级
重复情况：可能同一天同一个ID对应两个不同的等级
目标是：找出重复情况对应的时间和ID

 # 对合并后的数据进行处理
    data_range.drop_duplicates(inplace=True)  # 对档位数据整体去重，即将同一天同一ID等级相同的去重
    print(data_range.info())  # 去重后，148173
    # 再来看看同一天同一ID中存在不同等级的情况
    data = data_range[['时间', 'ID']]  # 先把等级拿掉
    df = data[data.duplicated(subset=['时间', 'ID']) == True]  # 看看同一天同一户不同档位的情况有多少--->2345个
    print(df)  # 148173-2345=145828  数据刚刚好
    # 将重复数据（等级不同，时间和ID重复的数据）中的时间和ID变为一个元组
    df_tuples = [tuple(xi) for xi in df.values]
    for i, j in df_tuples:
        print(i, j)
        b = np.int64(j)  # 将int类型 转成 numpy.int64类型
        data_range.drop(
            index=data_range[(data_range['时间'] == i) & (data_range['ID'] == b) & (data_range['等级'] == '未分配等级')].index,
            inplace=True)
    print(data_range)

    data1 = data_range.drop_duplicates(subset=['时间', 'ID'], keep='first')  # 去重