4、数据预处理与算法选择全解析

数据预处理与算法选择全解析

1. 数据预处理最佳实践

数据预处理涵盖了一系列针对原始、结构化和非结构化数据(来自一个或多个来源)的不同过程。其重点在于提升数据质量和完整性,规范数据定义与结构,收集并整合数据,以及进行转换步骤,使其对机器学习分析更有用。选择和采用的预处理过程会因目的、数据专业知识、与数据的交互方式以及想要解答的问题类型而有所不同。

以下是数据准备过程中可能遇到的挑战及相应建议的最佳实践:
| 数据问题 | 常见挑战 | 建议最佳实践 |
| — | — | — |
| 数据收集 | 不完整数据 | 丰富数据 |
| | 高维数据 | 降维(特征提取、变量聚类和变量选择节点) |
| | 稀疏性 | 更改数据表示(转换节点) |
| | 有偏数据 | 花时间理解业务问题及其背景 |
| “不整洁”数据 | 值范围作为列、同一列中有多个变量、行和列中都有变量 | 用 SAS 代码转换数据(代码节点) |
| 异常值 | 得分数据中超出范围的数值和未知分类值 | 离散化(转换节点)、Winsorizing(插补节点) |
| 稀疏目标变量 | 低主要事件发生率、目标中零值或缺失值占比过大 | 比例过采样 |
| 不同量级的变量 | 误导性的变量重要性、距离度量不平衡、梯度主导 | 标准化(转换节点) |
| 高基数变量 | 过拟合、保留数据中的未知分类值 | 分箱(转换节点)、替换(替换节点) |
| 缺失数据 | 信息丢失、偏差 | 分箱(转换节点)、插补(插补节点) |
| 强多重共线性 | 不稳定的参数估计 | 降维(特征提取、变量聚类和变量选择节点) |

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值