用随机森林填补缺失值：原理、实现与实战

最新推荐文章于 2025-09-01 00:15:00 发布

原创

最新推荐文章于 2025-09-01 00:15:00 发布 · 1.3k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#随机森林 #机器学习 #人工智能

在数据科学项目中，缺失值处理是数据预处理阶段最关键的任务之一。无论是传感器故障、用户未填写信息还是数据采集误差，缺失值都会直接影响后续建模的效果——多数机器学习算法无法直接处理含缺失值的数据，强行使用可能导致模型崩溃或性能骤降。

常见的缺失值填充方法（如均值/中位数填充、众数填充、KNN填充等）各有优劣，但在面对特征间存在复杂关联的数据集时，这些方法往往难以捕捉变量间的潜在关系，导致填充结果偏离真实分布。今天我们将介绍一种更智能的填充方法：基于随机森林的缺失值填补，并通过代码实战演示其实现过程。

一、为什么选择随机森林填充缺失值？

随机森林是一种基于集成学习的树模型，具有以下特性，使其非常适合用于缺失值填补：

非线性建模能力：随机森林能自动捕捉特征间的非线性关系和交互作用，无需假设变量间的分布（如线性回归要求线性关系）。
鲁棒性强：对噪声、异常值不敏感，即使部分特征存在缺失或噪声，仍能保持稳定的预测能力。
自适应性：通过多棵决策树的投票/平均机制，降低过拟合风险，提升泛化能力。
无需特征缩放：决策树基于特征阈值分裂，不依赖特征的量纲（如标准化或归一化）。

二、随机森林填补缺失值的核心逻辑

随机森林填补缺失值的本质是将“填补缺失值”转化为一个监督学习问题。具体步骤如下：

1. 整体思路

对于数据集中的每一个存在缺失值的特征（记为Feature_X）：

将Feature_X的非缺失值作为“标签”（Y），其他已填补的特征作为“输入特征”（X）；
用无缺失值的样本训练随机森林模型，学习输入特征与Feature_X的关系；
用训练好的模型预测Feature_X的缺失值，填充到原数据集中。

2. 关键细节

填充顺序：优先填充缺失值较少的特征。因为缺失值少的特征，其非缺失样本更可靠，训练出的模型能更准确地预测缺失值，为后续填充缺失值多的特征提供更稳定的输入。
迭代填充：每填充一个特征后，该特征的非缺失值会被加入输入特征池，供后续特征填充使用，形成“逐步完善”的填充链。

三、代码实现与逐行解析

下面我们结合用户提供的代码，详细解析随机森林填补缺失值的实现过程。

3.1 环境准备与数据预处理

首先导入必要的库，并合并原始数据与标签（假设标签列名为矿物类型）：

import pandas as pd
from sklearn.ensemble import RandomForestRegressor

def rf_train_fill(train_data, train_label):
    # 合并特征数据与标签，便于统一处理
    train_data_all = pd.concat([train_data, train_label], axis=1)
    train_data_all = train_data_all.reset_index(drop=True)  # 重置索引，避免拼接后索引混乱
    
    # 分离特征矩阵（去除标签列）
    train_x = train_data_all.drop('矿物类型',