python labelencoder与get_dummies的区别

最新推荐文章于 2025-11-01 10:12:33 发布

转载最新推荐文章于 2025-11-01 10:12:33 发布 · 1.9k 阅读

17 ·

CC 4.0 BY-SA版权

原文链接：https://www.cnblogs.com/wyy1480/p/10295084.html

Python数据处理专栏收录该内容

3 篇文章

订阅专栏

本文介绍使用pandas的get_dummies(), sklearn的LabelEncoder和OneHotEncoder进行数据预处理的方法，包括类别特征编码和数字特征编码，是进行机器学习项目的重要步骤。

部署运行你感兴趣的模型镜像

1. pd.get_dummies() #简单&粗暴

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)
官网文档：
http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html

输入：array-like, Series, or DataFrame
输出：DataFrame
主要参数说明：
data : array-like, Series, or DataFrame
prefix : 给输出的列添加前缀，如prefix="A",输出的列会显示类似
prefix_sep : 设置前缀跟分类的分隔符sepration，默认是下划线"_"
一般，我们输入data就够了。如果要专门关注Nan这类东东，可设置dummy_na=True，专门生成一列数据。
见下面的栗子：（简直不要太容易）

import numpy as np
import pandas as pd
data = pd.DataFrame({"学号":[1001,1002,1003,1004],
                    "性别":["男","女","女","男"],
                    "学历":["本科","硕士","专科","本科"]})
data

	学历	学号	性别
0	本科	1001	男
1	硕士	1002	女
2	专科	1003	女
3	本科	1004	男

pd.get_dummies(data)

	学号	学历_专科	学历_本科	学历_硕士	性别_女	性别_男
0	1001	0	1	0	0	1
1	1002	0	0	1	1	0
2	1003	1	0	0	1	0
3	1004	0	1	0	0	1

pd.get_dummies(data,prefix="A")

	学号	A_专科	A_本科	A_硕士	A_女	A_男
0	1001	0	1	0	0	1
1	1002	0	0	1	1	0
2	1003	1	0	0	1	0
3	1004	0	1	0	0	1

pd.get_dummies(data,prefix=["A","B"],prefix_sep="+")

	学号	A+专科	A+本科	A+硕士	B+女	B+男
0	1001	0	1	0	0	1
1	1002	0	0	1	1	0
2	1003	1	0	0	1	0
3	1004	0	1	0	0	1

2. sklearn的崽一：LabelEncoder 将不连续的数字or文本进行编号

sklearn.preprocessing.LabelEncoder()
官方文档：
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

此时只是将文本转化为了数字编号

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
le.fit([1,5,67,100])
le.transform([1,1,100,67,5])
#输出： array([0,0,3,2,1])

array([0, 0, 3, 2, 1], dtype=int64)

from sklearn import preprocessing
le = preprocessing.LabelEncoder()
le.fit([1, 3, 3, 7])
LabelEncoder()
le.transform([1, 1, 3, 7]) 
#array([0, 0, 1, 2]...)
le.classes_   #查看分类
#array([1, 2, 6])
le.inverse_transform([0, 0, 1, 2])  #transform的逆向
#array([1, 1, 2, 6])

array([1, 1, 3, 7])

3. sklearn的崽二：OneHotEncoder 对表示分类的数字进行编码，输出跟dummies一样

sklearn.preprocessing.OneHotEncoder(n_values=None, categorical_features=None, categories=None, sparse=True, dtype=<class ‘numpy.float64’>, handle_unknown=’error’)
官方文档：
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html
注意：
输入的应该是表示类别的数字，如果输入文本，会报错的。

from sklearn.preprocessing import OneHotEncoder
OHE = OneHotEncoder()
OHE.fit(data)

会报错，因为只能输入数字，所以要先用LabelEncoder进行转化

data3 = le.fit_transform(data["性别"])
OHE.fit(data3.reshape(-1,1))
OHE.transform(data3.reshape(-1,1)).toarray()

array([[ 0.,  1.],
       [ 1.,  0.],
       [ 1.,  0.],
       [ 0.,  1.]])

对因变量y不能用OneHotEncoder，要用LabelBinarizer。

您可能感兴趣的与本文相关的镜像

Qwen3-8B

文本生成

Qwen3

Qwen3 是 Qwen 系列中的最新一代大型语言模型，提供了一整套密集型和专家混合（MoE）模型。基于广泛的训练，Qwen3 在推理、指令执行、代理能力和多语言支持方面取得了突破性进展