24、数据插补方法全解析

最新推荐文章于 2025-10-25 12:29:20 发布

电竞养老选手

最新推荐文章于 2025-10-25 12:29:20 发布

阅读量84

点赞数

CC 4.0 BY-SA版权

分类专栏：数据清洗的艺术与实践文章标签：数据插补典型值插补局部性插补

本文链接：https://blog.youkuaiyun.com/tensor9flow/article/details/151269444

32 篇文章 ¥499.90

订阅专栏¥69.90

数据插补方法全解析

在数据处理过程中，对输入特征进行插补往往是有用的。然而，该输入特征在问题或领域中的作用可能有所不同。从“业务目的”角度来看，某个特定特征可能至关重要，无论它是否是最具预测性的特征。通常情况下，对具有核心任务重要性的特征进行插补是不明智的。

有一篇著名且有说服力的文章《数据的不合理有效性》，探讨了非常大的数据集如何为我们解决许多问题。

数据插补可分为单值插补和全数据集修改（过采样和欠采样）。单值插补符合我们通常对插补的理解，而采样的目标是生成一个更接近我们试图建模的现实的数据集，这与插补的目的一致。

典型值插补的核心概念包括识别要插补的值、数据集内的集中趋势（如均值、中位数、几何均值和多模态数据）、基于总体的集中趋势以及相邻数据所呈现的趋势。最简单的做法是假设缺失值与该特征的总体趋势相似。在某些情况下，领域知识可以为我们提供合理的默认值；若缺乏相关背景，现有数据也能为插补提供指导。

以UCI机器学习库中的皮肤病数据集为例，该数据包含366名患者的34项测量值，每位患者被诊断为六种皮肤病之一。大部分特征是对观察到的特征严重程度的有序编码测量。

from src.setup import * 
from src.dermatology import * 
df.iloc[:, [0, 1, 2, 3, -2, -1]].sample(6) 
<