特征编码、转换与缩放全解析
在机器学习的数据预处理阶段,特征编码、转换与缩放是至关重要的环节。合理地处理数据能够显著提升模型的性能和效果。接下来,我们将详细探讨几种常见的特征处理方法。
1. 分类特征编码
1.1 独热编码(One-Hot Encoding)
独热编码是一种将名义数据转换为适合机器学习算法的简单方法。以性别( gender )和婚姻状况( maritalstatus )为例,我们可以使用 OneHotEncoder 进行编码。
ohe = OneHotEncoder(drop_last=True, variables=['gender','maritalstatus'])
ohe.fit(X_demo_train)
X_demo_train_ohe = ohe.transform(X_demo_train)
X_demo_test_ohe = ohe.transform(X_demo_test)
X_demo_train_ohe.filter(regex='gen|mar', axis="columns").head(2).T
| 606986 | 764231 | |
|---|---|---|
| gender_Female | 1 | 0 </ |
超级会员免费看
订阅专栏 解锁全文
15万+

被折叠的 条评论
为什么被折叠?



