7、数据预处理与特征工程全解析

最新推荐文章于 2025-09-18 14:43:18 发布

原创最新推荐文章于 2025-09-18 14:43:18 发布 · 39 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#数据预处理 # 特征工程 # 分类编码

深度学习异常检测实战专栏收录该内容

29 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据预处理与特征工程全解析

1. 分类编码

在数据中，常常会有许多字符串值需要进行建模。然而，机器学习模型无法直接处理文本，它们只能操作数字。因此，需要将这些字符串转换为数值表示，主要有两种方法：
- 将标签映射为一对一的数值等价物。
- 创建独热向量并将其作为列添加以对类别进行编码。

1.1 标签编码

可以使用 scikit-learn 创建标签编码器，将分类标签自动映射为数值等价物，也可以使用相同的标签编码器对象将其转换回原始的分类值。以下是具体操作步骤：
1. 导入标签编码器并找出 Embarked 列中的唯一值：

from sklearn.preprocessing import LabelEncoder
df2 = df.copy()
df2['Embarked'].unique()

输出结果可能如下：

array(['S', 'C', 'Q', nan], dtype=object)

实例化标签编码器对象并将其拟合到数据列上，然后打印出类别：

embarked_encoder = LabelEncoder()
embarked_encoder.fit(df2['Embarked'])
embarked_encoder.classes_

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。