python | Pandas库数据预处理-重复值篇:drop_duplicates()函数及其subset参数、keep参数

本文详细介绍了如何使用Pandas库进行数据预处理,包括利用info()、isnull()、dropna()和fillna()函数来检测和处理缺失值。通过实例演示了去重、指定列去重和保留方式的选择,帮助读者理解在实际数据分析中如何高效管理数据质量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

相关文章 

python | Pandas库数据预处理-缺失值篇:info()、isnull()、dropna()、fillna()函数icon-default.png?t=N7T8https://blog.youkuaiyun.com/m0_61523149/article/details/124009296


目录

原数据

导入数据

drop_duplicates():去重函数

subset参数:设置去重参照列

keep参数:设置去重要保留的数据


原数据


导入数据

import pandas as pd

student = pd.read_excel(r'E:\2022Python\重复值数据.xlsx')
# 原数据
print(student)

输出结果如下:

   学号  姓名 性别  班级
0   1  小明  男   1
1   1  小明  男   1
2   2  小红  女   2
3   2  小聪  男   2
4   3  小亮  男   1
5   3  小丽  女   2
6   4  小晶  男   3
7   5  小美  女   4

drop_duplicates():去重函数

# 按所有列去重,默认保留第一个
print(student.drop_duplicates())

输出结果如下:

   学号  姓名 性别  班级
0   1  小明  男   1
2   2  小红  女   2
3   2  小聪  男   2
4   3  小亮  男   1
5   3  小丽  女   2
6   4  小晶  男   3
7   5  小美  女   4

subset参数:设置去重参照列

# 按某几列去重,默认保留第一个
print(student.drop_duplicates(subset=['学号', '班级']))

# 按某一列去重,默认保留第一个
print(student.drop_duplicates(subset='学号'))

输出结果如下:

   学号  姓名 性别  班级
0   1  小明  男   1
2   2  小红  女   2
4   3  小亮  男   1
5   3  小丽  女   2
6   4  小晶  男   3
7   5  小美  女   4
   学号  姓名 性别  班级
0   1  小明  男   1
2   2  小红  女   2
4   3  小亮  男   1
6   4  小晶  男   3
7   5  小美  女   4

keep参数:设置去重要保留的数据

# 'first':保留第一个
print(student.drop_duplicates(keep='first'))

# 'last':保留最后一个
print(student.drop_duplicates(keep='last'))

# False:全部不保留
print(student.drop_duplicates(keep=False))

输出结果如下:

   学号  姓名 性别  班级
0   1  小明  男   1
2   2  小红  女   2
3   2  小聪  男   2
4   3  小亮  男   1
5   3  小丽  女   2
6   4  小晶  男   3
7   5  小美  女   4
   学号  姓名 性别  班级
1   1  小明  男   1
2   2  小红  女   2
3   2  小聪  男   2
4   3  小亮  男   1
5   3  小丽  女   2
6   4  小晶  男   3
7   5  小美  女   4
   学号  姓名 性别  班级
2   2  小红  女   2
3   2  小聪  男   2
4   3  小亮  男   1
5   3  小丽  女   2
6   4  小晶  男   3
7   5  小美  女   4

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值