数据预处理与特征工程全解析
1. 分类编码
在数据中,常常会有许多字符串值需要进行建模。然而,机器学习模型无法直接处理文本,它们只能操作数字。因此,需要将这些字符串转换为数值表示,主要有两种方法:
- 将标签映射为一对一的数值等价物。
- 创建独热向量并将其作为列添加以对类别进行编码。
1.1 标签编码
可以使用 scikit-learn 创建标签编码器,将分类标签自动映射为数值等价物,也可以使用相同的标签编码器对象将其转换回原始的分类值。以下是具体操作步骤:
1. 导入标签编码器并找出 Embarked 列中的唯一值:
from sklearn.preprocessing import LabelEncoder
df2 = df.copy()
df2['Embarked'].unique()
输出结果可能如下:
array(['S', 'C', 'Q', nan], dtype=object)
- 实例化标签编码器对象并将其拟合到数据列上,然后打印出类别:
embarked_encoder = LabelEncoder()
embarked_encoder.fit(df2['Embarked'])
embarked_encoder.classes_
超级会员免费看
订阅专栏 解锁全文
1150

被折叠的 条评论
为什么被折叠?



