import pandas as pd
df=pd.DataFrame({'m':['dashuaige']*3+['dameinv']*4,'n':[1,1,2,3,3,4,5]})
df['x']=range(7)
print(df)
print('删除完全重复:')
a=df.drop_duplicates()
print(a) #因为没有完全重复的行,所以没有删除。
print('删除以 m 为标准的重复行,并保留第一次出现的值:')
b=df.drop_duplicates('m',keep='first')
print(b)
print('删除以 m 、n 为标准的重复行,并保留最后一次出现的值:')
c=df.drop_duplicates(['m','n'],keep='last')
print(c)
print('删除以 m 、n 为标准的重复行,都不保留:')
d=df.drop_duplicates(['m','n'],keep=False)
print(d)
m n x
0 dashuaige 1 0
1 dashuaige 1 1
2 dashuaige 2 2
3 dameinv 3 3
4 dameinv 3 4
5 dameinv 4 5
6 dameinv 5 6
删除完全重复:
m n x
0 dashuaige 1 0
1 dashuaige 1 1
2 dashuaige 2 2
3 dameinv 3 3
4 dameinv 3 4
5 dameinv 4 5
6 dameinv 5 6
删除以 m 为标准的重复行,并保留第一次出现的值:
m n x
0 dashuaige 1 0
3 dameinv 3 3
删除以 m 、n 为标准的重复行,并保留最后一次出现的值:
m n x
1 dashuaige 1 1
2 dashuaige 2 2
4 dameinv 3 4
5 dameinv 4 5
6 dameinv 5 6
删除以 m 、n 为标准的重复行,都不保留:
m n x
2 dashuaige 2 2
5 dameinv 4 5
6 dameinv 5 6
okokokok,不管你是dashuaige还是dameinv,以上就是我对删除重复行的理解,byby...