机器学习全流程:从数据准备到模型部署
1. 建模数据准备
在机器学习建模开始前,完成数据清理后,还需进行其他形式的探索性数据分析。领域专业知识有助于识别那些在特定领域中需要更好理解其解释的模式。为提高机器学习建模的成功率,可能需要进行特征工程,通过构建新特征或利用表示学习来学习新特征。新特征可以很简单,比如身体质量指数(BMI),即体重(千克)与身高(米)平方的比值;也可以是通过复杂过程或额外的机器学习建模学习到的新特征和表示。
1.1 特征选择与提取
之前经过归一化和缩放处理的原始特征,可进一步处理以提高模型性能。特征处理主要有两种方式:特征选择和特征提取。
1.1.1 特征选择
特征选择的目标是减少特征数量(即数据的维度),保留信息丰富的特征。例如,当有20,000个特征和500个数据点时,大部分原始特征在构建监督学习模型时可能并无信息价值。以下是一些简单的特征选择技术:
- 保留在数据点上具有高方差或平均绝对偏差(MAD)的特征。
- 保留在数据点上具有最多唯一值的特征。
- 从高度相关的特征组中保留代表性特征。
这些过程可以使用所有数据点或仅使用训练数据来避免训练和测试数据之间的潜在信息泄漏。
1.1.2 特征提取
将原始特征进行线性或非线性组合,可以得到更具信息价值的特征,用于构建预测模型。这个过程称为特征提取,可以基于领域知识或通过不同的统计或机器学习模型来进行。例如,可以使用主成分分析(PCA)或等距映射(Isomap)分别以线性或非线性方式降低数据的维度,然后在训练和测试过程中使用这些新特征。以下是Python实现代码: <
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



