如何对类别变量进行独热编码

独热编码是将类别变量转换为数值型数据的方法,常用于机器学习算法。本文通过示例解释了独热编码的概念,展示了如何在R语言和Python中使用caret、fastDummies及sklearn库进行独热编码的操作步骤,以便于算法更好地处理分类特征。
部署运行你感兴趣的模型镜像

大部分机器学习算法是基于向量空间中度量来进行计算的,使用独热编码(One-hot encoding, 也称为哑变量 dummy variable)会让特征之间的距离计算更加合理。通过独热编码把类别变量转换为机器学习算法可使用的格式,其基本思想是对原始类别变量的每个值创建新的变量,并赋值为 1 和 0
在这里插入图片描述

示例说明

下图展示如何进行独热编码,把Team变量转为新的变量:

TeamPoints
A25
A12
B15
B14
B19
B23
C25
C29

下面把原始变量转为独热编码形式:

Team_ATeam_BTeam_CPoints
10025
10012
01015
01014
01019
01023
00125
00129

R 语言实现

R 有多种方式很容易实现独热编码。可以使用工具包提供函数实现,也可以手动实现。下面定义演示数据:

# 定义数据框
df <- data.frame(team=c('A', 'A', 'B', 'B', 'B', 'B', 'C', 'C'),
                 points=c(25, 12, 15, 14, 19, 23, 25, 29))

# 查看数据
df

#   team points
# 1    A     25
# 2    A     12
# 3    B     15
# 4    B     14
# 5    B     19
# 6    B     23
# 7    C     25
# 8    C     29

我们先看caret包中提供了dummyVars()函数,它可以方便实现独热编码:

library(caret)

# 定义独热编码函数
dummy <- dummyVars(" ~ .", data=df)

# 在数据框df上执行独热编码函数
final_df <- data.frame(predict(dummy, newdata=df))

# 查看结果
final_df

#  teamA teamB teamC points
# 1     1     0     0     25
# 2     1     0     0     12
# 3     0     1     0     15
# 4     0     1     0     14
# 5     0     1     0     19
# 6     0     1     0     23
# 7     0     0     1     25
# 8     0     0     1     29 

另外fastDummies包提供的dummy_cols也可以轻松完成:

library(fastDummies)

df2 <- dummy_cols(df, select_columns = "team")
df2

#  team_A team_B team_C points
# 1     1     0     0     25
# 2     1     0     0     12
# 3     0     1     0     15
# 4     0     1     0     14
# 5     0     1     0     19
# 6     0     1     0     23
# 7     0     0     1     25
# 8     0     0     1     29 

当然我们也可以手动实现:

df$teamA <- ifelse(df$team=='A',1,0)
df$teamB <- ifelse(df$team=='B',1,0)
df$teamC <- ifelse(df$team=='C',1,0)
df

#   team points teamA teamB teamC
# 1    A     25     1     0     0
# 2    A     12     1     0     0
# 3    B     15     0     1     0
# 4    B     14     0     1     0
# 5    B     19     0     1     0
# 6    B     23     0     1     0
# 7    C     25     0     0     1
# 8    C     29     0     0     1

Python实现

import pandas as pd

# 定义数据框
df = pd.DataFrame({'team': ['A', 'A', 'B', 'B', 'B', 'B', 'C', 'C'],
                   'points': [25, 12, 15, 14, 19, 23, 25, 29]})

# 查看结果
print(df)

sklearn 库提供的OneHotEncoder() 函数用于对pandas数据框实现独热编码:

from sklearn.preprocessing import OneHotEncoder

# 创建实例
encoder = OneHotEncoder(handle_unknown='ignore')

# 对team列执行独热编码
encoder_df = pd.DataFrame(encoder.fit_transform(df[['team']]).toarray())

# 往源数据框中合并独热编码列
final_df = df.join(encoder_df)

# 查看数据
print(final_df)

#   team  points    0    1    2
# 0    A      25  1.0  0.0  0.0
# 1    A      12  1.0  0.0  0.0
# 2    B      15  0.0  1.0  0.0
# 3    B      14  0.0  1.0  0.0
# 4    B      19  0.0  1.0  0.0
# 5    B      23  0.0  1.0  0.0
# 6    C      25  0.0  0.0  1.0
# 7    C      29  0.0  0.0  1.0

# 删除 'team' 列
final_df.drop('team', axis=1, inplace=True)

# 重命名列
final_df.columns = ['points', 'teamA', 'teamB', 'teamC']

print(final_df)

#    points  teamA  teamB  teamC
# 0      25    1.0    0.0    0.0
# 1      12    1.0    0.0    0.0
# 2      15    0.0    1.0    0.0
# 3      14    0.0    1.0    0.0
# 4      19    0.0    1.0    0.0
# 5      23    0.0    1.0    0.0
# 6      25    0.0    0.0    1.0
# 7      29    0.0    0.0    1.0

您可能感兴趣的与本文相关的镜像

Python3.10

Python3.10

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值