机器学习预处理:中位数填充缺失值的Python实现
在机器学习领域,数据预处理是非常重要的环节。而缺失值的处理则是其中必不可少的一部分。本文将介绍如何使用Python对缺失值进行中位数填充。
数据集
我们将使用scikit-learn库自带的著名鸢尾花数据集来展示中位数填充的方法。该数据集包含150个样本,分为三个品种:setosa、versicolor和virginica,每个品种各有50个样本。每个样本都有四个特征:萼片长度、萼片宽度、花瓣长度和花瓣宽度。
from sklearn.datasets import load_iris
import pandas as pd
# 导入数据集
iris = load_iris()