get_dummies的编码用法

最新推荐文章于 2025-03-13 17:41:46 发布

mocas_wang

最新推荐文章于 2025-03-13 17:41:46 发布

阅读量1.5k

点赞数

分类专栏： Python数据分析处理

本文链接：https://blog.youkuaiyun.com/mocas_wang/article/details/103897082

版权

Python数据分析处理专栏收录该内容

14 篇文章

订阅专栏

本文深入讲解了One-hot编码的基本原理及其实现方法，通过pandas.get_dummies函数演示了如何将离散型特征转换为One-hot编码形式，适用于机器学习模型的预处理阶段。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

one-hot encoding

one-hot的基本思想：将离散型特征的每一种取值都看成一种状态，若你的这一特征中有N个不相同的取值，那么我们就可以将该特征抽象成N种不同的状态，one-hot编码保证了每一个取值只会使得一种状态处于“激活态”，也就是说这N种状态中只有一个状态位值为1，其他状态位都是0。

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False)

参数说明：

data : array-like, Series, or DataFrame
输入的数据
prefix : string, list of strings, or dict of strings, default None
get_dummies转换后，列名的前缀
columns : list-like, default None
指定需要实现类别转换的列名
dummy_na : bool, default False
增加一列表示空缺值，如果False就忽略空缺值
drop_first : bool, default False
获得k中的k-1个类别值，去除第一个

1.新增列为one-hot形式

# change weekday to one-hot encoding，将weekday转换成one-hot编码
weekdaycols = ['weekday_' + str(i) for i in range(1,8)]
tmpdf = pd.get_dummies(dfoff['weekday'].replace('nan', np.nan)) ##如果是nan，则one——hot为0
tmpdf.columns = weekdaycols
dfoff[weekdaycols] = tmpdf

转换前后weekday增加列，如果值为nan,则one-hot数值全为0

2.利用prefix增加列

dummies_Cabin = pd.get_dummies(data_test['Cabin'], prefix= 'Cabin')
dummies_Embarked = pd.get_dummies(data_test['Embarked'], prefix= 'Embarked')
dummies_Sex = pd.get_dummies(data_test['Sex'], prefix= 'Sex')
dummies_Pclass = pd.get_dummies(data_test['Pclass'], prefix= 'Pclass')

df_test = pd.concat([data_test, dummies_Cabin, dummies_Embarked, dummies_Sex, dummies_Pclass], axis=1)