DataFrame.duplicated(subset=None, keep='first')
返回表示重复行的布尔序列。
Parameters:
1)subset column label or sequence of labels, optional
#用来指定特定的列,默认所有列
Only consider certain columns for identifying duplicates, by default use all of the columns.
2)keep{‘first’, ‘last’, False}, default ‘first’
#删除重复项并保留第一次出现的项
Determines which duplicates (if any) to mark.
-
first: Mark duplicates asTrueexcept for the first occurrence. -
last: Mark duplicates asTrueexcept for the last occurrence.
#keep='last'参数就是让系统从后向前开始筛查,这样索引小的重复行会返回 'True'。
-
False : Mark all duplicates as
True.
栗子:
import pandas as pd
data=pd.DataFrame({'district':['A','A','B','B','C','C'],'count':[50,50,60,60,80,80]})

重复行返回“True”
data.duplicated()

用drop_duplicates()删除重复行
data.drop_duplicates()

去除后的行索引没有更新,所以用reset_index(drop=True)进行行索引更新
data.drop_duplicates().reset_index(drop=True)

本文介绍了pandas.DataFrame.duplicated方法,该方法可返回表示重复行的布尔序列。详细说明了其参数subset和keep的作用,subset可指定特定列,keep用于确定标记哪些重复项。还给出示例,展示如何用drop_duplicates()删除重复行,并用reset_index(drop=True)更新行索引。
2379

被折叠的 条评论
为什么被折叠?



