在使用pandas处理数据时,会遇到这样一个问题:打开文档查看某些列明显有很多是空的,但是在python里用dataframe.info统计出来并不是空的,这是因为excel表里这些数据看起来是空的值,但其实是一个空格,但是用isnull判断是为False的。
解决方案:
对整张表dataframe替换空格为np.nan,可以使用replace方法通过正则匹配空格,然后替换:
df.replace(to_replace=r'^\s*$',value=np.nan,regex=True,inplace=True)
其中\s表示空白字符,匹配任何空白字符,包括空格、制表符、换页符等,*表示任意个。