Pandas删除重复行数据

本文介绍使用Python的Pandas库进行数据清理时如何有效删除数据框中的重复行。通过不同参数设置,如保留首次出现的值、保留最后一次出现的值或是完全移除重复项,演示了针对单列或多列数据的重复性处理方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

import pandas as pd
df=pd.DataFrame({'m':['dashuaige']*3+['dameinv']*4,'n':[1,1,2,3,3,4,5]})
df['x']=range(7)
print(df)

print('删除完全重复:')
a=df.drop_duplicates()
print(a)      #因为没有完全重复的行,所以没有删除。

print('删除以 m 为标准的重复行,并保留第一次出现的值:')
b=df.drop_duplicates('m',keep='first')
print(b)

print('删除以 m 、n 为标准的重复行,并保留最后一次出现的值:')
c=df.drop_duplicates(['m','n'],keep='last')
print(c)

print('删除以 m 、n 为标准的重复行,都不保留:')
d=df.drop_duplicates(['m','n'],keep=False)
print(d)
           m  n  x
0  dashuaige  1  0
1  dashuaige  1  1
2  dashuaige  2  2
3    dameinv  3  3
4    dameinv  3  4
5    dameinv  4  5
6    dameinv  5  6
删除完全重复:
           m  n  x
0  dashuaige  1  0
1  dashuaige  1  1
2  dashuaige  2  2
3    dameinv  3  3
4    dameinv  3  4
5    dameinv  4  5
6    dameinv  5  6
删除以 m 为标准的重复行,并保留第一次出现的值:
           m  n  x
0  dashuaige  1  0
3    dameinv  3  3
删除以 m 、n 为标准的重复行,并保留最后一次出现的值:
           m  n  x
1  dashuaige  1  1
2  dashuaige  2  2
4    dameinv  3  4
5    dameinv  4  5
6    dameinv  5  6
删除以 m 、n 为标准的重复行,都不保留:
           m  n  x
2  dashuaige  2  2
5    dameinv  4  5
6    dameinv  5  6

okokokok,不管你是dashuaige还是dameinv,以上就是我对删除重复行的理解,byby...

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值