pandas使用drop_duplicates去除DataFrame重复项参数

最新推荐文章于 2024-02-27 15:05:39 发布

原创最新推荐文章于 2024-02-27 15:05:39 发布 · 1.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#pandas #去除dataframe重复项参数

机器学习与深度学习AI 专栏收录该内容

52 篇文章

订阅专栏

本文详细介绍了如何使用Pandas库中的drop_duplicates方法去除DataFrame中的重复行。通过具体实例，展示了如何指定去重的列、保留哪一行以及是否直接在原数据上操作。此方法对于数据预处理和清洗至关重要。

pandas使用drop_duplicates去除DataFrame重复项参数

DataFrame中存在重复的行或者几行中某几列的值重复，这时候需要去掉重复行，示例如下：
data.drop_duplicates(subset=[‘A’,‘B’],keep=‘first’,inplace=True)

实例:

#保存至csv中
s=({"YYYY":Year,"State":data["State"],"TDRState":TDRState})
submit=pd.DataFrame(data=s)
submit=submit.drop_duplicates(subset=['State','TDRState','YYYY'],keep='first',inplace=False)
submit.to_csv('/Users/liyixin/Desktop/result.csv',index=False)