drop_duplicates(subset=' 列名',keep='firsrt',inplace='True')函数是删除DataFrame的某列中重复项的函数。
subset,输入列名,形式为subset='列名1',可输入多列,形式为subset=['列名1','列名2']
keep包括'first','last',False,三个参数,注意first和last带引号,而False没有,'first'是保留重复项中第一个,last是保留最后一个,False是都不保留
举例
import pandas as pd
dict={'x':[1,2,3,6],'y':[1,4,1,1],'z':[1,2,4,1]}
df=pd.DataFrame(dict)
df

df.drop_duplicates(subset=['y','z'],keep='first',inplace=True)
df

本文详细介绍了使用Python的Pandas库进行数据去重的方法,特别是drop_duplicates函数的应用,包括参数subset、keep和inplace的使用技巧,通过实例展示了如何有效去除DataFrame中的重复数据。
754





