5、机器学习全流程:从数据准备到模型部署

机器学习全流程:从数据准备到模型部署

1. 建模数据准备

在机器学习建模开始前,完成数据清理后,还需进行其他形式的探索性数据分析。领域专业知识有助于识别那些在特定领域中需要更好理解其解释的模式。为提高机器学习建模的成功率,可能需要进行特征工程,通过构建新特征或利用表示学习来学习新特征。新特征可以很简单,比如身体质量指数(BMI),即体重(千克)与身高(米)平方的比值;也可以是通过复杂过程或额外的机器学习建模学习到的新特征和表示。

1.1 特征选择与提取

之前经过归一化和缩放处理的原始特征,可进一步处理以提高模型性能。特征处理主要有两种方式:特征选择和特征提取。

1.1.1 特征选择

特征选择的目标是减少特征数量(即数据的维度),保留信息丰富的特征。例如,当有20,000个特征和500个数据点时,大部分原始特征在构建监督学习模型时可能并无信息价值。以下是一些简单的特征选择技术:
- 保留在数据点上具有高方差或平均绝对偏差(MAD)的特征。
- 保留在数据点上具有最多唯一值的特征。
- 从高度相关的特征组中保留代表性特征。

这些过程可以使用所有数据点或仅使用训练数据来避免训练和测试数据之间的潜在信息泄漏。

1.1.2 特征提取

将原始特征进行线性或非线性组合,可以得到更具信息价值的特征,用于构建预测模型。这个过程称为特征提取,可以基于领域知识或通过不同的统计或机器学习模型来进行。例如,可以使用主成分分析(PCA)或等距映射(Isomap)分别以线性或非线性方式降低数据的维度,然后在训练和测试过程中使用这些新特征。以下是Python实现代码: <

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值