特征缩放
X_norm=(X-X_min)/(X_max-X_min )

lambda x: (x - x.min()) / (x.max() - x.min())
特征标准化
Gaussian with zero mean and unit variance. z=(x-μ)/σ

numeric_feats = all_X.dtypes[all_X.dtypes != "object"].index
all_X[numeric_feats] = all_X[numeric_feats].apply(lambda x: (x - x.mean())
/ (x.std()))
类别特征预处理:
不能将类别特征简单表示为数字,因为模型会将类别解释成有序,实际上类别是任意排列的,这里可以用One-hot编码方式来表示。这样估计器将每个具有m个可能值的分类特征转换成m个二元特征,只有一个有效。

本文探讨了机器学习中样本数据预处理的重要性,包括特征缩放、特征标准化、类别特征预处理(如One-hot编码)、构造多项式特征以及标签编码。强调了正确处理类别特征和构建非线性关系的重要性,并提及了缺失值和不平衡样本处理的专门讨论链接。
最低0.47元/天 解锁文章
2470

被折叠的 条评论
为什么被折叠?



