数据插补方法全解析
1. 数据插补概述
在数据处理过程中,对输入特征进行插补往往是有用的。然而,该输入特征在问题或领域中的作用可能有所不同。从“业务目的”角度来看,某个特定特征可能至关重要,无论它是否是最具预测性的特征。通常情况下,对具有核心任务重要性的特征进行插补是不明智的。
有一篇著名且有说服力的文章《数据的不合理有效性》,探讨了非常大的数据集如何为我们解决许多问题。
数据插补可分为单值插补和全数据集修改(过采样和欠采样)。单值插补符合我们通常对插补的理解,而采样的目标是生成一个更接近我们试图建模的现实的数据集,这与插补的目的一致。
2. 典型值插补
2.1 概念
典型值插补的核心概念包括识别要插补的值、数据集内的集中趋势(如均值、中位数、几何均值和多模态数据)、基于总体的集中趋势以及相邻数据所呈现的趋势。最简单的做法是假设缺失值与该特征的总体趋势相似。在某些情况下,领域知识可以为我们提供合理的默认值;若缺乏相关背景,现有数据也能为插补提供指导。
2.2 典型表格数据示例
以UCI机器学习库中的皮肤病数据集为例,该数据包含366名患者的34项测量值,每位患者被诊断为六种皮肤病之一。大部分特征是对观察到的特征严重程度的有序编码测量。
2.2.1 数据读取与初步探查
from src.setup import *
from src.dermatology import *
df.iloc[:, [0, 1, 2, 3, -2, -1]].sample(6)
<
超级会员免费看
订阅专栏 解锁全文
88

被折叠的 条评论
为什么被折叠?



