端到端机器学习流程示例:鲍鱼年龄预测
1. 数据预处理
当目标变量被分离出来后,就可以对特征进行归一化处理。不过,并非所有数据集都需要归一化。通过观察数据集的统计摘要,可以发现特征具有不同的取值范围。这些不同的范围,尤其是当值较大时,会在训练期间影响模型的整体效果。因此,对特征进行归一化可以使模型更快地收敛到全局最小值。
以下是对现有特征进行归一化的代码示例:
import numpy as np
from sklearn import preprocessing
X = abalone_data.values.astype(np.float)
X = preprocessing.normalize(X)
根据对数据集的初步观察,我们对数据进行必要的转换,为模型训练准备特征。例如,将“性别”列从名义数据类型转换为定量数据类型,因为这些数据在确定鲍鱼年龄方面起着重要作用。
数据处理步骤的目标是探索和理解数据集,并将所学知识应用于数据,将其预处理成适合下游模型构建和训练的表示形式。
2. 构建合适的模型
在完成数据摄入、分析和处理后,我们进入机器学习流程的下一阶段:构建合适的机器学习模型,以适应业务用例并匹配我们对数据的新理解。
不幸的是,没有一种适用于所有用例的通用算法。但通过结合业务目标和数据集的知识,我们可以定义一份潜在算法列表。
以预测鲍鱼年龄为例,我们希望通过环的数量来预测鲍鱼的年龄。分析数据集可知,“环”列是目标变量,其值为 1 到 29 之间的离散数值。因此,我们可以将
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



