机器学习中常见的离散变量的编码方式 onehotencoder(独热编码)

最新推荐文章于 2025-06-22 07:13:36 发布

liuzh(少昊)

最新推荐文章于 2025-06-22 07:13:36 发布

阅读量2.4k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习算法实现文章标签：机器学习编码 one hot 独热编码离散变量

本文链接：https://blog.youkuaiyun.com/liuzonghao88/article/details/86323487

机器学习算法实现专栏收录该内容

12 篇文章

订阅专栏

本文详细介绍了一种常见的机器学习预处理技术——独热编码的具体应用。通过使用sklearn库中的OneHotEncoder，对数据集中的分类特征进行编码转换，将其转换为数值型特征，以便于机器学习算法处理。文章提供了完整的编码过程，包括数据读取、编码操作、结果验证及数据集更新。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

onehotencoder(独热编码)

# dataset为数据集  product_tags为需要编码的特征列(假设为第一列)
product_tags = dataset.iloc[:, :1]
from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder(categories='auto').fit(product_tags)
res = enc.transform(product_tags).toarray()
res.shape # 查看编码后有多少列
enc.get_feature_names() # 查看每一列对应的特征
# 将编码得到的这些列拼接到原来的数据集后面 然后删除原来列就大功告成了
new_data = pd.concat([dataset, pd.DataFrame(res)],axis=1) # 拼接
new_data.head(10)
new_data.drop(['product_tags_1'],axis=1,inplace=True) # 删除原来列
new_data.columns  # 查看拼接后所有的列名
new_data  # 大功告成