python labelencoder与get_dummies的区别

本文介绍使用pandas的get_dummies(), sklearn的LabelEncoder和OneHotEncoder进行数据预处理的方法,包括类别特征编码和数字特征编码,是进行机器学习项目的重要步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. pd.get_dummies()  #简单&粗暴

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)
官网文档:
http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html

输入:array-like, Series, or DataFrame
输出:DataFrame
主要参数说明:
data : array-like, Series, or DataFrame
prefix : 给输出的列添加前缀,如prefix="A",输出的列会显示类似
prefix_sep : 设置前缀跟分类的分隔符sepration,默认是下划线"_"
一般,我们输入data就够了。如果要专门关注Nan这类东东,可设置dummy_na=True,专门生成一列数据。
见下面的栗子:(简直不要太容易)

import numpy as np
import pandas as pd
data = pd.DataFrame({"学号":[1001,1002,1003,1004],
                    "性别":["男","女","女","男"],
                    "学历":["本科","硕士","专科","本科"]})
data
 

学历

学号性别
0本科1001
1硕士1002
2专科1003
3本科1004
pd.get_dummies(data)

 

 学号学历_专科学历_本科学历_硕士性别_女性别_男
0100101001
1100200110
2100310010
3100401001

 

pd.get_dummies(data,prefix="A")
 学号A_专科A_本科A_硕士A_女A_男
0100101001
1100200110
2100310010
3100401001
pd.get_dummies(data,prefix=["A","B"],prefix_sep="+")

 

 学号A+专科A+本科A+硕士B+女B+男
0100101001
1100200110
2100310010
3100401001

2. sklearn的崽一:LabelEncoder 将不连续的数字or文本进行编号

sklearn.preprocessing.LabelEncoder()
官方文档:
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

此时只是将文本转化为了数字编号

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
le.fit([1,5,67,100])
le.transform([1,1,100,67,5])
#输出: array([0,0,3,2,1])
array([0, 0, 3, 2, 1], dtype=int64)
from sklearn import preprocessing
le = preprocessing.LabelEncoder()
le.fit([1, 3, 3, 7])
LabelEncoder()
le.transform([1, 1, 3, 7]) 
#array([0, 0, 1, 2]...)
le.classes_   #查看分类
#array([1, 2, 6])
le.inverse_transform([0, 0, 1, 2])  #transform的逆向
#array([1, 1, 2, 6])   
array([1, 1, 3, 7])

3. sklearn的崽二:OneHotEncoder 对表示分类的数字进行编码,输出跟dummies一样

sklearn.preprocessing.OneHotEncoder(n_values=None, categorical_features=None, categories=None, sparse=True, dtype=<class ‘numpy.float64’>, handle_unknown=’error’)
官方文档:
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html
注意:
输入的应该是表示类别的数字,如果输入文本,会报错的

from sklearn.preprocessing import OneHotEncoder
OHE = OneHotEncoder()
OHE.fit(data)

会报错,因为只能输入数字,所以要先用LabelEncoder进行转化

data3 = le.fit_transform(data["性别"])
OHE.fit(data3.reshape(-1,1))
OHE.transform(data3.reshape(-1,1)).toarray()
array([[ 0.,  1.],
       [ 1.,  0.],
       [ 1.,  0.],
       [ 0.,  1.]])

对因变量y不能用OneHotEncoder,要用LabelBinarizer。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值