应用机器学习入门:从概念到实践
1. 机器学习管道概述
机器学习管道旨在自动化机器学习工作流程,从大数据集中获取可操作的见解。其目标是训练出准确的模型来解决潜在问题。不过,“管道”这个术语可能会让人产生误解,因为机器学习工作流程中的许多步骤可能会反复迭代,以提高模型的准确性。机器学习管道的循环架构如下图所示:
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(数据准备):::process --> B(探索性数据分析):::process
B --> C(特征选择):::process
C --> D(模型训练):::process
D --> E(模型评估):::process
E --> |性能不佳| A(数据准备):::process
E --> |性能达标| F(模型部署):::process
1.1 数据准备
在进行任何分析之前,需要对输入(或收集)的数据进行准备。这一步包括数据清理、数据插补、特征工程、数据缩放/标准化和数据采样等任务,以处理噪声、异常值、转换分类变量、归一化/标准化数据集特征以及处理不平衡(或有偏差)的数据集。
1.2 探索性数据分析(EDA)
在 EDA 步骤中,对数据进行分析以了解其特征,例如数据是否具有正态分布或偏态分布。数据的偏态会影响统计模型的性能,特别是基于回归的模型。为了防止偏态对结果造成损害,通常会对