dataFrame中，若空值已经被标注为了＂unkown＂或＂?＂的处理方法

原创已于 2022-02-28 15:20:46 修改 · 415 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#pandas

于 2022-02-27 14:33:09 首次发布

pandas 同时被 2 个专栏收录

14 篇文章

订阅专栏

python

11 篇文章

订阅专栏

当CSV文件中的空值被表示为'?'时，标准的isnull()函数无法检测。本文介绍了三种解决方案：1)读取文件时设定'?'为NaN值；2)直接检查'?'并统计出现次数；3)先将'?'转换为NaN再使用isnull()。这些方法帮助你有效地管理和统计CSV中的空值。

部署运行你感兴趣的模型镜像

如果此时使用isnull函数不可行，官方文档写的很清楚，像空值已经被换成"?"的情况是检查不出来的(doge）

对于这个问题，我们使用三种方法解决，为了方便，我们假设空值现在都是"?"。

１.读文件时设置

将"?"视为空值，然后使用isnull正常统计

df = pd.read_csv("你的文件名.csv",na_values = '?')

然后，打印结果

missing_values_count = df.isnull().sum()  
print(missing_values_count)

如果想自定义输出结构，还可以这样写：

cols_with_missing = [col for col in df.columns if df[col].isnull().any()]
print(cols_with_missing)

for i in cols_with_missing:
    print(i + ': ' + str(df[i].isnull().sum()))

2.检查 "?" 并统计

df = pd.DataFrame({'Yes': [50, 21, '?', 70, 21], 'No': [131, 2, 98, 1, 3]})

index = [i for i in df.columns if df[i].isin(['?']).any()]
print(index)

for i in index:   
    print(i + ':  ' + str((df[i] == '?').sum()))

其中，isin代表改列的元素出现在含"?"的列表中，any代表只要存在这样的元素，就将列的名称加到包含所有含"?"的的列表中。

随后，对于含"?"的列，我们对"?"求和，得到结果

['Yes']
Yes:  1

第一行输出了所有含”?”的列名，第二行统计了每一个含"?"的列中，"?"的个数。

3.先转化为nan，随后用我们熟悉的isnull处理

先替换

df = pd.DataFrame({'Yes': [50, 21, '?', 70, 21], 'No': [131, 2, 98, 1, 3]})

for column in df.columns:
    df[column].replace('?',np.nan,inplace = True)

然后使用isnull

missing_values_count = df.isnull().sum()  
print(missing_values_count)

结果为

Yes    1
No     0
dtype: int64

您可能感兴趣的与本文相关的镜像

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本