pandas删除数据、空缺值处理、重复值处理

Pandas数据处理：删除、缺失值及重复值操作

最新推荐文章于 2023-03-16 21:25:26 发布

原创最新推荐文章于 2023-03-16 21:25:26 发布 · 923 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#数据分析 #pandas #python

python 专栏收录该内容

5 篇文章

订阅专栏

本文介绍了使用Pandas库进行数据处理的一些基本操作，包括删除指定行或列、处理空缺值以及处理重复值。通过示例代码展示了drop方法的不同用法，如何检查和处理NaN值，以及如何根据条件筛选数据。同时，还演示了如何删除重复的行和列，确保数据的准确性。

1.删除指定的行或列

t1 = pd.DataFrame(np.arange(12).reshape((3,4)).astype("int"), index = list("abc"), columns = list("ABCD"))

#若不指定轴则 默认删除行
t1.drop('a', inplace = False)
#指定axis=1 则删除列
t1.drop('A', axis = 1, inplace = False)
t1.drop(['A', 'B'], axis = 1, inplace = False)

2.空缺值处理

#缺失数据处理
t1 = pd.DataFrame(np.arange(12).reshape((3,4)).astype("int"), index = list("abc"), columns = list("ABCD"))
t1.iloc[0,0] = np.nan

#判断是否为nan 返回一个值为布尔类型的DataFrame
pd.isnull(t1) 
pd.notnull(t1)

t1[pd.notnull(t1['A'])]

#去除空缺值 any代表行/列只要出现nan就删除 all代表全部为nan时才删除
t1.dropna(axis = 0, how = "any", inplace =False)
t1.dropna(axis = 0, how = "all", inplace = False)

#空缺值填充
t1.fillna(t1.mean())

3.重复值处理

df= pd.DataFrame({'k1': [ 's1']* 3 + ['s2']* 5,'k2' : [1, 2, 3, 4, 5, 6, 4,4]})
print(df)

#判断是否存在重复值 返回一列布尔值
df.duplicated()
df.duplicated('k2')
df.duplicated(['k1', 'k2'])

df.drop_duplicates(inplace = False)
df.drop_duplicates('k2',inplace = False)
df.drop_duplicates(['k1', 'k2'],inplace = False)