pandas组队学习-Task6 缺失值处理-优快云博客

本文链接：https://blog.youkuaiyun.com/Zee_Chao/article/details/106932989

本文详细介绍Pandas中处理缺失值的方法，包括发现、统计、筛选、填充、删除及插值策略，帮助读者掌握有效处理数据集中的缺失值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

3.5 convert_dtypes()方法

6.3 interpolate()中的限制参数

7. 问题与练习

7.1 问题

7.2 练习

1. 学习内容

1. 学习如何发现缺失值并统计缺失值的情况

2. 学习pandas中对缺失值的各种表示方式

3. 利用填充、删除和插值方法来处理缺失值

本项目参见https://github.com/datawhalechina/team-learning/tree/master/Pandas%E6%95%99%E7%A8%8B%EF%BC%88%E4%B8%8A%EF%BC%89

2. 准备工作

import pandas as pd
import numpy as np
df = pd.read_csv('data/table_missing.csv')
df.head()

  School Class      ID Gender   Address  Height  Weight  Math Physics
0    S_1   C_1     NaN      M  street_1     173     NaN  34.0      A+
1    S_1   C_1     NaN      F  street_2     192     NaN  32.5      B+
2    S_1   C_1  1103.0      M  street_2     186     NaN  87.2      B+
3    S_1   NaN     NaN      F  street_2     167    81.0  80.4     NaN
4    S_1   C_1  1105.0    NaN  street_4     159    64.0  84.8      A-

3. 发现缺失值并统计缺失值的情况

3.1 观察具体位置上是否出现缺失值

isna()和notna()将会统计表格每一列的缺失值情况。前者缺失值记为True，非缺失值记为False；后者恰好相反。

df['Physics'].isna().head()

0    False
1    False
2    False
3     True
4    False
Name: Physics, dtype: bool

3.2 缺失值的统计

由于布尔值True等于1，False等于0。因此可以在isna()和notna()后面再加上sum()方法来统计各个列的缺失值个数。

df.isna().sum()

School      0
Class       4
ID          6
Gender      7
Address     0
Height      0
Weight     13
Math        5
Physics     4
dtype: int64

或者还可以使用info()方法来进行统计。

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 9 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   School   35 non-null     object 
 1   Class    31 non-null     object 
 2   ID       29 non-null     float64
 3   Gender   28 non-null     object 
 4   Address  35 non-null     object 
 5   Height   35 non-null     int64  
 6   Weight   22 non-null     float64
 7   Math     30 non-null     float64
 8   Physics  31 non-null     object 
dtypes: float64(3), int64(1), object(5)
memory usage: 2.6+ KB

3.3 缺失值数据的筛选与过滤

3.3.1 找出某列缺失值所在的行数据

df[df['Physics'].isna()]

   School Class      ID Gender   Address  Height  Weight  Math Physics
3     S_1   NaN     NaN      F  street_2     167    81.0  80.4     NaN
8     S_1   C_2  1204.0      F  street_5     162    63.0  33.8     NaN
13    S_1   C_3  1304.0    NaN  street_2     195    70.0  85.2     NaN
22    S_2   C_2  2203.0      M  street_4     155    91.0  73.8     NaN

df[df.loc[:, ['Weight', 'Math']].isna().all(1)]

   School Class      ID Gender   Address  Height  Weight  Math Physics
20    S_2   C_2  2201.0      M  street_5     193     NaN   NaN       B

3.3.2 找出所有值都非缺失的行数据

df[df.notna().all(1)]

   School Class      ID Gender   Address  Height  Weight  Math Physics
5     S_1   C_2  1201.0      M  street_5     159    68.0  97.0      A-
6     S_1   C_2  1202.0      F  street_4     176    94.0  63.5      B-
12    S_1   C_3  1303.0      M  street_7     188    82.0  49.7       B
17    S_2   C_1  2103.0      M  street_4     157    61.0  52.5      B-
21    S_2   C_2  2202.0      F  street_7     194    77.0  68.5      B+
25    S_2   C_3  2301.0      F  street_4     157    78.0  72.3      B+
27    S_2   C_3  2303.0      F  street_7     190    99.0  65.9       C
28    S_2   C_3  2304.0      F  street_6     164    81.0  95.5      A-
29    S_2   C_3  2305.0      M  street_4     187    73.0  48.9       B

3.4 缺失值符号介绍

3.4.1 旧体系的符号

在pandas 1.0版本之前，pandas中对于缺失值的表示有三种不同的方式。它们分别是：np.nan，None和pd.NaT。

np.nan是一种很特殊的空值，它不等于任何其他常见的空值（0，None），甚至也不等于它自己。对于表格而言，可以用equals()方法来判断两个表格是否相等。其中，在遇到同一位置的值均为np.nan时会自动忽略，从而避免对结果造成影响。np.nan虽然是空值，但是在numpy中，它是属于浮点类型的。因此，只要读入的数据集中某整数类型的列存在np.nan，则这一列数据会被强制转换为浮点型。另外，np.nan对应的布尔值为True。如果刚读入的数据中某列为布尔类型，且其中存在np.nan则np.nan会被记为True而非False。但是，如果数据在导入后某位置被修改为np.nan，则该位置会变成np.nan而非True。在所有的表格读取后，无论列是存放什么类型的数据，默认的缺失值全为np.nan类型。因此整型列转为浮点；而字符由于无法转化为浮点，因此只能归并为object类型（'O'），原来是浮点型的则类型不变。

None等于自身且布尔值等于False。布尔类型值无论是导入时就是None还是之后被修改为None，都会将其自动变为False。数值型无论是导入时就是None还是之后被修改为None，都会将其自动变为np.nan。只有对象类型不会对None进行修改。equals()方法不会略过None。

pd.NaT是针对时间序列的缺失值，是Pandas的内置类型，可以完全看做时序版本的np.nan（因此一些性质与np.nan是一样的）。它与自己不等，而且使用equals是也会被跳过。datetime类型的数据在被修改为None后，会将其自动变为pd.NaT。

s_time = pd.Series([pd.Timestamp('20120101')] * 5)
s_time[2] = None
s_time[3] = np.nan
s_time

0   2012-01-01
1   2012-01-01
2          NaT
3          NaT
4   2012-01-01
dtype: datetime64[ns]

s = pd.Series([True,False],dtype='bool')
s[1] = pd.NaT
s

0    True
1    True
dtype: bool

这些缺失值符号都有自己独有的特点而且在一些情况下会彼此相互转化。这样就使很多数据分析工作变得混乱。

3.4.2 新体系的数据类型和符号

从pandas 1.0开始，诞生了一个新的数据类型Nullable和新的缺失值符号pd.NA。这么做的目的就是为了应对上述空值彼此存在的混乱情况。在新的数据类型体系中，数据若被修改为空值（np.nan，None和pd.NaT）都会被一律转换为pd.NA。

Nullable类型中又包含新的数据类型，它们是：整型（Int），布尔型（boolean）和字符串类型（string）。

其中，string类型是pandas 1.0的一大创新，目的之一就是为了区分开原本含糊不清的object类型。它本质上也属于Nullable类型，因为它不会因为含有缺失而改变类型。此外，和object类型的一点重要区别就在于，在调用字符方法后，string类型返回的是Nullable类型，而object则会根据缺失类型和数据类型而改变。

pd.NA具有以下性质：

首先，对于逻辑运算，如果运算结果依赖pd.NA的取值，则结果为pd.NA，否则的话可以视为pd.NA并没有参与运算。

print(True & pd.NA)
print(True | pd.NA)
print(False & pd.NA)
print(False | pd.NA)

<NA>
True
False
<NA>

另外，pd.NA是不能被强制转化为bool类型的，否则会报错。

最后，对于算数运算，除了以下两种情况，所有的算数运算（加减乘除，比较大小，指对数，幂运算）结果都是pd.NA。

print(pd.NA ** 0)
print(1 ** pd.NA)

1
1