深入数据与集成机器学习入门
1. 处理数据缺失值
在处理数据集时,缺失值是一个常见的问题。以下是处理缺失值的详细步骤:
1. 查看缺失值情况 :通过查看变量的绝对值和百分比,发现 Alley 变量超过93%的值缺失。经过查看数据描述,发现 Alley 变量的 No Access to Alley 值在数据集中被编码为 NA ,Python将其视为缺失值。
2. 替换缺失值 :将 Alley 中的 NA 替换为 No Access 。
3. 绘制缺失值图表 :使用 seaborn 库绘制缺失值图表,识别有缺失值的变量。缺失值用白色表示,有数据的地方用颜色表示。
4. 处理数值变量缺失值 :发现数值变量 LotFrontage 超过17%的值缺失,用该变量的中位数填充缺失值。
5. 处理编码为NA的数据 :识别出一些编码为 NA 的数据,将其替换为实际信息。
6. 填充剩余缺失值 :对于 MasVnrType 和 MasVnrArea 变量,当 MasVnrArea
超级会员免费看
订阅专栏 解锁全文
1180

被折叠的 条评论
为什么被折叠?



