机器学习生命周期全解析
1. 建模数据准备
在开始机器学习建模之前,数据整理之后会进行其他形式的探索性数据分析。领域专业知识有助于识别模式,这些模式的解释需要结合问题所定义的主题领域来更好地理解。为提高机器学习建模成功的可能性,可能需要进行特征工程,通过构建新特征或表示学习来获取新特征。新特征可以很简单,比如身体质量指数(BMI),即体重(千克)与身高(米)平方的比值;也可以是通过复杂过程或额外的机器学习建模学习到的新特征和表示。
1.1 特征选择和提取
之前步骤中经过归一化和缩放的原始特征,可进一步处理以提高模型性能。特征处理一般有两种方式:特征选择和特征提取。
- 特征选择 :目的是减少特征数量或数据维度,保留信息丰富的特征。例如,有20000个特征和500个数据点时,大部分原始特征在构建监督学习模型时可能并无信息价值。以下是一些简单的特征选择技术:
- 保留数据点间方差或平均绝对偏差(MAD)较高的特征。
- 保留数据点间唯一值数量最多的特征。
- 从高度相关的特征组中保留代表性特征。
这些过程可以使用所有数据点或仅使用训练数据,以避免训练和测试数据之间的潜在信息泄漏。
- 特征提取 :线性或非线性地组合原始特征可以得到更具信息性的特征,用于构建预测模型,这个过程称为特征提取。可以基于领域知识或通过不同的统计或机器学习模型来进行。例如,可以使用主成分分析(PCA)或等距映射(Isomap)分别以线性或非线性方式降低数据维度,然后在训练和测试过程中使用这些新特征。以下是Python实现代码:
超级会员免费看
订阅专栏 解锁全文
1348

被折叠的 条评论
为什么被折叠?



