此内容在sklearn官网地址: http://scikit-learn.org/stable/modules/preprocessing.html#
sklearn版本:0.18.2
缺失值不能直接删除。缺失值有其存在原因,删除后不仅使可用的数据变少,也会使原本的数据发生改变,影响结果准确性。
from sklearn.preprocessing import Imputer
im = Imputer() # 默认参数 missing_values="NaN",strategy="mean"
# strategy还可用"median"、"most_frequent"
im.fit(X)
im.

在数据预处理中,缺失值处理是重要一环。直接删除会影响数据完整性,而合理填充能保持数据原有结构。通常不建议用平均值填充,而是采用特定值如"-999"或"-1"。但使用"-1"时需谨慎,因为标准化可能产生相似数值。此外,无穷大和无穷小值应转换为NaN后再处理。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



