Pandas_ get_dummies独热编码

pd.get_dummies 是 Pandas 库中的一个函数,用于将分类变量转换为“哑变量”或“独热编码”(One-Hot Encoding),这是处理分类数据的一种常用技术。这种编码方式可以使得模型能够更好地处理非数值变量。
基本用法

  1. 转换单个列:
    将 DataFrame 中的一列转换为哑变量。
import pandas as pd

df = pd.DataFrame({'color': ['red', 'green', 'blue']})
dummies = pd.get_dummies(df, columns=['color'])
print(dummies)

输出结果:
color_blue color_green color_red
0 0 0 1
1 0 1 0
2 1 0 0

  1. 转换多个列:
    同时转换 DataFrame 中的多个列。
df = pd.DataFrame({
   
   'color': ['red', 'green', 'blue'], 'size': ['S', 'M'
### pandas `get_dummies` 函数详解 #### 基本功能描述 `pandas.get_dummies` 是 Pandas 库中的一个重要工具,主要用于处理分类数据。此函数可以将分类变量转换成哑变量(也称为指示变量)。通过这种方式,每个类别的存在与否被表示为二进制值 0 或者 1 的新列[^1]。 #### 参数说明 - **data**: 输入的数据结构,通常是 Series 或 DataFrame 类型。 - **prefix**: 字符串或字符串列表,作为生成的新列名前缀,默认情况下会自动根据原始列名称加上下划线。 - **prefix_sep**: 新列名字之间的分隔符,默认是下划线 `_`. - **dummy_na**: 如果设为 True,则缺失值也会被视为有效的特征并创建对应的虚拟变量;默认为 False. - **columns**: 需要进行独热编码的具体列名组成的列表,如果未指定则会对所有的非数值类型的列执行操作。 - **sparse**: 是否返回稀疏矩阵形式的结果,默认不启用。 - **drop_first**: 若设置为 True 则移除第一个水平以减少冗余度,防止完全共线性问题的发生。 - **dtype**: 设置输出的 dtype 数据类型,默认无特殊设定即保持原样。 #### 实际应用案例展示 为了更好地理解如何使用这个函数,在这里给出一个具体的例子: 假设有一个关于学生的简单表格如下所示: ```python import pandas as pd students_df = pd.DataFrame({ 'Id': [302, 504, 708, 103, 303], 'Name': ["Mike", "Christine", "Rob", "Daniel", "Jennifer"], 'Sex': ['Male', 'Female', 'Male', 'Male', 'Female'], }) ``` 现在想要仅针对性别这一栏做独热编码转换,可以通过以下方式实现: ```python students_df_dummies = pd.get_dummies(students_df, columns=["Sex"]) print("Original Dataframe:") print(students_df) print("\nDataframe after applying get_dummies on column Sex:") print(students_df_dummies) ``` 这段代码将会把原有的 `Sex` 列拆分成两个新的布尔列——分别是 `Sex_Female` 和 `Sex_Male`,其中每一行对应位置上的值取决于原来那里的性别标签是什么样的[^4].
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

「已注销」

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值