pandas数据去重：drop_duplicates与duplicated函数

原创已于 2022-03-09 10:18:03 修改 · 7.7k 阅读

56 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #python

于 2022-03-08 18:34:38 首次发布

pandas 专栏收录该内容

5 篇文章

订阅专栏

本文详细介绍了Pandas库中用于数据去重的两个关键函数：duplicated()和drop_duplicates()。duplicated()函数返回布尔型Series，标记数据框中重复的行；drop_duplicates()函数则根据指定条件删除重复行。参数subset用于选择特定列进行去重，keep参数决定了保留第一次出现('first')还是最后一次出现('last')的记录，或者删除所有重复('false')的记录。inplace参数决定是否直接在原始数据框上进行操作。通过实例展示了如何使用这两个函数进行数据清洗。

1 drop_duplicates与duplicated参数：

DataFrame.duplicated(subset=None,keep=‘first’)
DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False)
- subset：列标签，可选, 默认使用所有列,只考虑某些列来识别重复项传入列标签或者列标签的序列
- keep:{‘first’，‘last’，False}，默认’first’
  - first：删除第一次出现的重复项。
  - last：删除重复项，除了最后一次出现。
  - “false”：删除所有重复项
- inplace:是否替换原数据，默认是生成新的对象，可以复制到新的DataFrame,如果设置为True则乎替换原有数据，通常不建议设置为True
- inplace参数的定义在pandas中有点类似，上述说法也可以对比rename函数中的inplace参数的作用

https://zhuanlan.zhihu.com/p/470913844

2 duplicated函数

subset=None默认情况下去重

import pandas as pd 
df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df
df.duplicated()