3、数据准备与预处理全解析

数据准备与预处理全解析

1. 数据准备概述

在机器学习领域,有句俗语叫“垃圾进,垃圾出”(Trash in—trash out)。要构建有效的机器学习模型,必须基于精心准备的数据。通常,构建一个成功的机器学习应用,约 80% 的时间都花在数据准备上。数据准备不仅包括正确转换和清理现有数据,还需要深入理解要考虑的特征,并确保所使用的数据本身是合适的,这就是分析周期中的数据阶段。

1.1 数据探索

准备任何用于分析的数据,都应从探索数据开始。探索数据意味着全面了解数据,可通过图形和数值方法来了解变量,例如:
- 图形方法 :直方图、散点图、条形图、茎叶图等,还有适用于大型数据集的热图和词云等现代图形工具。
- 数值方法
- 集中趋势度量的汇总统计,如均值、中位数或众数。
- 变异性的数值度量,如方差、标准差、范围或四分位距。
- 极端值,如异常值、最小值或最大值,以及缺失数据的计数或百分比。
- 双变量度量,如相关性。

为了准备数据来训练模型,必须执行以下基本任务:
1. 划分数据
2. 处理稀有事件
3. 管理缺失值
4. 添加非结构化数据
5. 提取特征
6. 处理极端或异常值
7. 选择有用的输入

1.2 数据预处理节点

Model Studio 提供了多种数据修改和降维的节点,以下是相关表格介绍:

1.2.1 数据修改节点
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值