pandas中的dropna()函数和np.dropna()函数

最新推荐文章于 2025-10-10 13:23:24 发布

原创最新推荐文章于 2025-10-10 13:23:24 发布 · 3.7k 阅读

CC 4.0 BY-SA版权

5 篇文章

订阅专栏

本文介绍了pandas中dropna()函数的使用，包括如何删除包含缺失值的行或列，以及参数如axis、how、thresh和subset的含义。通过示例展示了如何处理DataFrame中的缺失值，例如丢弃全为缺失值的行或列，以及针对特定列的操作。

dropna()函数

参数：

axis: default 0指行,1为列,默认为0

how: {‘any’, ‘all’},‘any’指带缺失值的所有行;'all’指清除全是缺失值的,默认是any

thresh: int,保留含有int个非空值的行

subset: 对特定的列进行缺失值删除处理

inplace: 这个很常见,True表示直接在原数据上更改

import pandas as pd
import numpy as np

data = pd.DataFrame(np.random.randn(5,4),index=list('abcde'),columns=['col1','col2','col3','col4'])

data

# 构造缺失值_1
data.iloc[1,:-1] = np.nan # iloc是根据索引进行操作

data

# 构造缺失值_2
data.iloc[1:-1,3] = np.nan

data

# 测试1
data.dropna() # 加上axis=0一样

	col1	col2	col3	col4
a	0.757299	-0.641018	-1.471744	-1.200730
e	0.796096	1.720318	-1.758990	-1.870864

# 测试2
data.dropna(axis=1)

data.dropna(how='all')  # 只删除了全为nan的行

data.dropna(thresh=1) # 只有1个nan的行被保留了

data.dropna(axis=0,subset = ['col2','col3'])  # 删除了col2和col3这两列中有nan的行