数据评估与异常值处理
一、数据类型转换与频率分布分析
在处理数据时,对于逻辑上属于分类但在 pandas 中未采用分类数据类型的数据,将其转换为分类类型是个不错的选择。这样做不仅能节省内存,还能让数据清洗工作更轻松。以 nls97 数据框为例,其中大部分列(88 列中有 57 列)是对象数据类型。
1.1 频率统计方法
value_counts 方法在频率统计中十分关键。它既可以对一个序列生成频率,如 nls97.maritalstatus.value_counts ;也能应用于整个数据框,例如 nls97.filter(like="gov").apply(pd.value_counts, normalize=True) 。以下是具体操作步骤:
# 对单个序列生成频率
nls97.maritalstatus.value_counts()
# 对数据框中特定列生成频率
nls97.filter(like="gov").apply(pd.value_counts, normalize=True)
1.2 分类列频率统计与保存
我们可以遍历所有分类数据类型的列,使用 value_counts 方法获取频率和百分比,并将结果保存到文件中。代码如下:
# 遍历分类列
for col in nls97.select_dtypes(include=
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



