24、数据插补方法全解析

数据插补方法全解析

1. 数据插补概述

在数据处理过程中,对输入特征进行插补往往是有用的。然而,该输入特征在问题或领域中的作用可能有所不同。从“业务目的”角度来看,某个特定特征可能至关重要,无论它是否是最具预测性的特征。通常情况下,对具有核心任务重要性的特征进行插补是不明智的。

有一篇著名且有说服力的文章《数据的不合理有效性》,探讨了非常大的数据集如何为我们解决许多问题。

数据插补可分为单值插补和全数据集修改(过采样和欠采样)。单值插补符合我们通常对插补的理解,而采样的目标是生成一个更接近我们试图建模的现实的数据集,这与插补的目的一致。

2. 典型值插补

2.1 概念

典型值插补的核心概念包括识别要插补的值、数据集内的集中趋势(如均值、中位数、几何均值和多模态数据)、基于总体的集中趋势以及相邻数据所呈现的趋势。最简单的做法是假设缺失值与该特征的总体趋势相似。在某些情况下,领域知识可以为我们提供合理的默认值;若缺乏相关背景,现有数据也能为插补提供指导。

2.2 典型表格数据示例

以UCI机器学习库中的皮肤病数据集为例,该数据包含366名患者的34项测量值,每位患者被诊断为六种皮肤病之一。大部分特征是对观察到的特征严重程度的有序编码测量。

2.2.1 数据读取与初步探查
from src.setup import * 
from src.dermatology import * 
df.iloc[:, [0, 1, 2, 3, -2, -1]].sample(6) 
<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值