7、数据预处理与特征工程全解析

数据预处理与特征工程全解析

1. 分类编码

在数据中,常常会有许多字符串值需要进行建模。然而,机器学习模型无法直接处理文本,它们只能操作数字。因此,需要将这些字符串转换为数值表示,主要有两种方法:
- 将标签映射为一对一的数值等价物。
- 创建独热向量并将其作为列添加以对类别进行编码。

1.1 标签编码

可以使用 scikit-learn 创建标签编码器,将分类标签自动映射为数值等价物,也可以使用相同的标签编码器对象将其转换回原始的分类值。以下是具体操作步骤:
1. 导入标签编码器并找出 Embarked 列中的唯一值:

from sklearn.preprocessing import LabelEncoder
df2 = df.copy()
df2['Embarked'].unique()

输出结果可能如下:

array(['S', 'C', 'Q', nan], dtype=object)
  1. 实例化标签编码器对象并将其拟合到数据列上,然后打印出类别:
embarked_encoder = LabelEncoder()
embarked_encoder.fit(df2['Embarked'])
embarked_encoder.classes_
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值