💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在优快云上与你们相遇~💖
本博客的精华专栏:
【自动化测试】 【测试经验】 【人工智能】 【Python】
使用 Scikit-learn 处理缺失值并提取填充统计信息的完整指南
在机器学习项目中,数据清洗是不可或缺的步骤,而处理缺失值更是其中的重点之一。Scikit-learn 作为一个强大的机器学习库,不仅提供了便捷的缺失值填充方法,还允许我们提取关键的填充统计信息,用于分析、可视化或模型解释。
本文将详细介绍几种常见的缺失值填充方法,并说明如何在填充过程中获取有价值的统计信息。
📌 示例数据
我们使用一个包含缺失值的简单二维数组作为示例数据:
import numpy as np
X = np.array([
[1, 2, np.nan],
[3, np.nan, 4],
[5, 6, np.nan]
])
方法一:使用 SimpleImputer
获取填充统计值
SimpleImputer
是 Scikit-learn 提供的基础填充工具,支持多种策略:mean
(均值)、median
(中位数)、most_frequent
(众数)、constant
(常数)。
from sklearn.impute import SimpleIm