数据准备与预处理全解析
1. 数据准备概述
在机器学习领域,有句俗语叫“垃圾进,垃圾出”(Trash in—trash out)。要构建有效的机器学习模型,必须基于精心准备的数据。通常,构建一个成功的机器学习应用,约 80% 的时间都花在数据准备上。数据准备不仅包括正确转换和清理现有数据,还需要深入理解要考虑的特征,并确保所使用的数据本身是合适的,这就是分析周期中的数据阶段。
1.1 数据探索
准备任何用于分析的数据,都应从探索数据开始。探索数据意味着全面了解数据,可通过图形和数值方法来了解变量,例如:
- 图形方法 :直方图、散点图、条形图、茎叶图等,还有适用于大型数据集的热图和词云等现代图形工具。
- 数值方法 :
- 集中趋势度量的汇总统计,如均值、中位数或众数。
- 变异性的数值度量,如方差、标准差、范围或四分位距。
- 极端值,如异常值、最小值或最大值,以及缺失数据的计数或百分比。
- 双变量度量,如相关性。
为了准备数据来训练模型,必须执行以下基本任务:
1. 划分数据
2. 处理稀有事件
3. 管理缺失值
4. 添加非结构化数据
5. 提取特征
6. 处理极端或异常值
7. 选择有用的输入
1.2 数据预处理节点
Model Studio 提供了多种数据修改和降维的节点,以下是相关表格介绍:
超级会员免费看
订阅专栏 解锁全文
1536

被折叠的 条评论
为什么被折叠?



