目录
问题背景
在机器学习的分类、聚类等任务中,我们经常会遇到一个或多个类别型的数据特征,如衣服颜色、商品类别等,这些特征的取值之前并无相对大小关系,难以直接作为机器学习模型的输入,因此我们先要对这类特征做转换才能作为模型输入。
对于类别型特征,需要需要做2件事:
(1)进行one-hot转换
(2)进行PCA降维
新建一个类别型的特征列
import numpy as np
from sklearn.preprocessing import OneHotEncoder
col = [99,55,99,11,66,44]
col = np.array(col).reshape(len(col), -1)
print(col)
[[99]
[55]
[99]
[11]
[66]
[44]]

本文介绍了在机器学习中如何处理类别型特征,通过sklearn库进行了one-hot编码和PCA降维操作,详细阐述了每个步骤,包括创建类别特征、应用one-hot转换器和PCA转换器,以及将转换应用于测试数据。
最低0.47元/天 解锁文章
1367

被折叠的 条评论
为什么被折叠?



