import pandas as pd
4.11.2 检测与处理重复值
1.数据重复
数据重复,即一个或者多个特征某几个记录的值完全相同
- 要清洗重复数据,可以使用 duplicated()和 drop_duplicates()方法
- 若对应的数据是重复的,duplicated() 会返回 True,否则返回 False
- 删除重复数据,可以直接使用drop_duplicates()方法
- pandas提供了一个名为drop_duplicates的去重方法。该方法不仅支持单一特征的数据去重,还能够依据DataFrame的其中一个或者几个特征进行去重操作。
pandas.DataFrame(Series).drop_duplicates(self, subset=None, keep='first', inplace=False) 
In [2]:
df1 = pd.DataFrame({'类型':['A','B','A','B','A'],'数目':[30,15,30,15,18]})
df1
Out[2]:
| 类型 | 数目 | |
|---|---|---|
| 0 | A | 30 |
| 1 | B | 15 |
| 2 | A | 30 |
| 3 | B | 15 |
| 4 | A | 18 |
In [3]:
df1.duplicated()
Out[3]:
0 False 1 False 2 True 3 True 4 False dtype: bool
In [4]:
df1.drop_duplicates()
Out[4]:
| 类型 | 数目 | |
|---|---|---|
| 0 | A | 30 |
| 1 | B | 15 |
| 4 | A | 18 |
In [5]:
df1.drop_duplicates().reset_index(drop=True)
Out[5]:

本文讲述了如何在数据分析中检测和处理重复值,包括数据重复和特征重复的情况。介绍了pandas库中的duplicated()和drop_duplicates()方法用于删除重复数据,以及使用corr()方法计算特征间的相关性进行特征去重。强调了相关系数的意义,如Pearson相关系数,以及如何通过散点图和scatter_matrix来评估特征间的关系。
最低0.47元/天 解锁文章
2381

被折叠的 条评论
为什么被折叠?



