如果此时使用isnull函数不可行,官方文档写的很清楚,像空值已经被换成"?"的情况是检查不出来的(doge)

对于这个问题,我们使用三种方法解决,为了方便,我们假设空值现在都是"?"。
1.读文件时设置
将"?"视为空值,然后使用isnull正常统计
df = pd.read_csv("你的文件名.csv",na_values = '?')
然后,打印结果
missing_values_count = df.isnull().sum()
print(missing_values_count)
如果想自定义输出结构,还可以这样写:
cols_with_missing = [col for col in df.columns if df[col].isnull().any()]
print(cols_with_missing)
for i in cols_with_missing:
print(i + ': ' + str(df[i].isnull().sum()))
2.检查 "?" 并统计
df = pd.DataFrame({'Yes': [50, 21, '?', 70, 21], 'No': [131, 2, 98, 1, 3]})
index = [i for i in df.columns if df[i].isin(['?']).any()]
print(index)
for i in index:
print(i + ': ' + str((df[i] == '?').sum()))
其中,isin代表改列的元素出现在含"?"的列表中,any代表只要存在这样的元素,就将列的名称加到包含所有含"?"的的列表中。
随后,对于含"?"的列,我们对"?"求和,得到结果
['Yes']
Yes: 1
第一行输出了所有含”?”的列名,第二行统计了每一个含"?"的列中,"?"的个数。
3.先转化为nan,随后用我们熟悉的isnull处理
先替换
df = pd.DataFrame({'Yes': [50, 21, '?', 70, 21], 'No': [131, 2, 98, 1, 3]})
for column in df.columns:
df[column].replace('?',np.nan,inplace = True)
然后使用isnull
missing_values_count = df.isnull().sum()
print(missing_values_count)
结果为
Yes 1
No 0
dtype: int64

当CSV文件中的空值被表示为'?'时,标准的isnull()函数无法检测。本文介绍了三种解决方案:1)读取文件时设定'?'为NaN值;2)直接检查'?'并统计出现次数;3)先将'?'转换为NaN再使用isnull()。这些方法帮助你有效地管理和统计CSV中的空值。
1795

被折叠的 条评论
为什么被折叠?



