Python实现独热编码

最新推荐文章于 2025-07-05 23:28:23 发布

原创最新推荐文章于 2025-07-05 23:28:23 发布 · 1.9w 阅读

70 ·

CC 4.0 BY-SA版权

文章标签：

#离散特征编码 #独热编码 #Python实现

机器学习同时被 2 个专栏收录

24 篇文章

订阅专栏

Python

13 篇文章

订阅专栏

关于独热编码与哑变量编码的概念，可以参考：https://blog.youkuaiyun.com/qq_41853758/article/details/81252174。

离散特征的编码分为两种情况：

1、离散特征的取值之间没有大小的意义，比如color：[red,blue],此时可以使用one-hot编码；

2、离散特征的取值有大小的意义，比如size:[X,XL,XXL],此时可以使用数值的映射{X:1,XL:2,XXL:3}。

本文主要讨论独热编码的Python实现：

import pandas as pd

df = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'],'data': range(6)})
df

df结构如下所示：

利用pd.get_dummies()函数对类别性特征df中的key进行独热编码处理：

dummies = pd.get_dummies(df['key'],prefix='key')
dummies

dummies的结构如下：

将经过独热编码处理后的类别特征与其他数值型特征组合起来：

new_df = df[['data']].join(dummies)
new_df

new_df的结构如下所示：

比较df和new_df我们可以看到，经过独热编码处理后，特征集由原来的两维变成了四维。一般情况下独热编码可以结合PCA一起使用，以降低经独热编码处理后的特征集的复杂性。

其他参考：

https://blog.youkuaiyun.com/lujiandong1/article/details/52836051

https://blog.youkuaiyun.com/wl_ss/article/details/78508367

《Python for Data Analysis》2nd

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Backcanhave7

关注关注

12
点赞
踩
70

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python实现独热编码（One-Hot Encoding）用于类别变量

2301_79366332的博客

09-09

745

因此，我们需要将类别变量转换为数值型数据，以便在模型中使用。独热编码是一种有效的方法，它将每个类别变量的取值扩展到一个独立的二进制特征列，其中只有一个特征为1，表示该样本属于该类别，其他特征为0。需要注意的是，独热编码会增加特征维度，如果数据集中的类别变量较多或类别取值较多，可能会导致特征维度急剧增加，从而增加模型的复杂度和计算开销。每个类别变量都被扩展为多个特征列，其中只有一个特征为1，表示该样本属于该类别。每个特征列表示了对应的类别值是否存在，其中只有一个特征为1，表示该样本属于该类别。

独热编码python实现_标签编码、独热编码大不同 - Python 实现

weixin_35843523的博客

02-12

646

对于新手在做资料的特征工程时，会看到 Label Encoding 或 One Hot Encoding 两种对于类别行资料的编码方式，那他们之间究竟有什么不同呢？直接讲结论：原始资料是有序离散值的话 => Label Encoding原始资料是无序离散值的话 => One Hot Encoding (Dummies)以下分为两点说明：为什么要将离散转数值？因为大部分的模型都是基于数学...

1 条评论您还未登录，请先登录后发表或查看评论

python之独热编码的实现

大彤小忆的博客

08-23

5129

独热编码即 One-Hot 编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。上图就是独热编码（“one hot” encoding）的转换，在转换后的表示中，每列的一个元素是“hot”（意思是设置为1）。

Python ------ 独热编码（Dataframe 数据可直接套用）

Sjy00o的博客

08-13

1049

读取CSV文件并对其中的某几列进行独热编码的操作，并将结果保存在一个新的DataFrame中

python|独热编码

最新发布

qq_63487239的博客

07-05

578

1.定义：独热编码是一种将分类变量转换为机器学习模型可处理的数值向量的技术。其本质是用二进制向量表示每个类别，向量中只有一个位置为 1（表示该类别），其余位置为 0。2.技术原理：以简单分类变量为例：假设变量 “颜色” 包含 3 个类别：红色、绿色、蓝色。红色 → 独热编码：[1, 0, 0]绿色 → 独热编码：[0, 1, 0]蓝色 → 独热编码：[0, 0, 1]优势消除类别间的顺序假设（如 “红色” 和 “绿色” 在编码后是独立向量，无大小关系）。

python 独热码_Python机器学习之独热编码（一）

weixin_29775447的博客

02-03

4608

在机器学习算法中，常会遇到分类特征是离散的，无序的。例如：性别有男、女，城市有北京，上海，深圳等。性别特征：["男"，"女"] => 0，1地区特征：["北京"，"上海，"深圳"] => 0，1，2工作特征：["演员"，"厨师"，"公务员"，"工程师"，"律师"] => 0，1，2，3，4比如，样本(女，北京，工程师)=>(1，0，3)，但是，这样的特征处理并不能直接放入...

独热编码-通过python代码讲解

m0_47410750的博客

02-09

2370

通过3个独热编码实验，理解独热编码

独热编码python实现_独热编码（one-hot coding）

weixin_39904116的博客

02-12

2959

1 为什么需要独热编码？直接上案例，一份数据，特征为[“颜色”, “尺码”, “喜欢度”, “类别”]，具体数据为[[‘green’,’M’, 10.1,’class1′], [‘red’,’L’, 13.5,’class2′], [‘blue’,’XL’, 15.3,’class1′]]。这几项中，喜欢度直接是数值型，不用管。类别是label，先不说。对于颜色与尺码这两项，应该如何编码？先说尺码...

独热编码python实现_详解深度学习中的独热编码

weixin_33921444的博客

12-23

1916

很多人开始接触深度学习，数据处理遇到第一个专业英文术语就是one-hot encode(独热编码)，很多初学者就会迷茫，这个东西是什么意思，其实说的直白点所谓的独热编码最重要的就是把一组字符串或者数字转为一组向量而且这组向量中只能有一个向量值是1。可见独热编码还是很形象的说1这个单独大热门，做个形象的比喻，2018足球世界杯的冠军只能有一个，如果对32支球队做个独热编码则会得到32个向量，其中只能...

[python数据处理系列]详解独热编码与标签编码的区别及在Pandas中的实现

2301_81199775的博客

04-21

3638

本文详细解析了独热编码与标签编码的区别，并演示了如何在Pandas中进行数据集创建和独热编码的实现。同时，还介绍了如何自动对所有分类变量进行独热编码、对指定列进行独热编码以及对进行独热编码的列采用布尔型表示的方法。最后，文章探讨了对数据进行独热编码后，数据变成了什么类型。

python 独热码_One-hot coding（独热编码）

weixin_39630762的博客

12-10

1061

在数据预处理中，为了方便模型的输入，常常会把非数值类型量化成数值类型。其中比较简单的一种处理离散型数值编码方式叫one-hot coding(独热编码)1、概念独热编码即 One-Hot 编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。2、介绍其实编码方式并不难理解，N位状态寄存器来对N个状态进行编码就是将所有...

Python实现类别变量的独热编码（One-hot Encoding）

Gefangenes的博客

06-02

3409

本文介绍基于下与两种方法，实现机器学习中最优的编码方法——的方法。目录在数据处理与分析领域，对数值型与字符型加以是不可或缺的预处理操作；这里介绍两种不同的方法。

Python代码理解独热编码

weixin_44943389的博客

10-10

399

独热编码（One-Hot Encoding）是一种将类别型数据转换为机器学习算法可以理解的形式的方法。它将一个类别型特征拓展为多个二元特征，其中每个特征表示了一个可能的类别值。在这个例子中，我们首先创建了一个包含类别型特征 ‘Fruit’ 的数据集。然后使用函数对 ‘Fruit’ 列进行独热编码，生成了三个新的二元特征 ‘Fruit_Apple’、‘Fruit_Banana’ 和 ‘Fruit_Orange’。这样，原始的类别型特征被转换为了可以直接输入机器学习算法的数值特征。

Python中的标签编码和独热编码

python收藏家的博客

07-21

1216

Python中的标签编码和独热编码

Python数据分析数据预处理特征值独热编码

liujingwei8610的专栏

04-22

5692

【小白从小学Python、C、Java】【Python-计算机等级考试二级】【Python-数据分析】 Python数据分析数据预处理特征值独热编码 独热编码，是一种将分类变量转换为若干二进制列的方法，其中1表示属于该类别的行。这种方法有效的诠释了分类变量的含义且去除了类别对应的值的大小在机器学习过程中对结果产生的影响。以下python代码是对数据框数据car_data中“品牌”列分类数据做独热编码： dummy_data = pd.get_dummies(car_data["品

对DataFrame的列进行独热编码（OneHot）

热门推荐

肥仔的博客

07-14

1万+

代码出处：https://blog.youkuaiyun.com/sinat_30316741/article/details/88080158，原文把处理DataFrame的代码注释掉了，另外还有一点是把原文代码中的if type(data) == pandas.core.frame.DataFrame:里面的pandas改成pd，然后在我的机子上才能运行 #onehot from sklearn imp...

独热编码One-Hot Encoding

yuan_xiangjun的博客

08-05

541

在机器学习算法中，常会遇到分类特征是离散的，无序的。例如：性别有男、女等。性别特征： [“男”，“女”] => 0，1 地区特征： [“武汉”，“荆州”，“江苏”] => 0，1，2 工作特征： [“程序员”，“教师”，“公务员”，“工程师”，“律师”] => 0，1，2，3，4 比如，样本(女，武汉，工程师)=>(1，0，3)，但是，这样的特征处理并不能直接放入机器学习算法中，因为，分类器通常数据是连续且有序。解决这类问题，一种解决方法是采用独热编码（One-Hot Encodi

文本表示方法--独热编码(One-Hot)

Cocktail_py的博客

08-21

1922

one-hot编码(每列只有一个1,其他都为0的一维矩阵) 一.图示二.代码实现 import numpy as np # 分词过的语料 corpus = [ '这是第一个文档', '这是第二个文档', '这是最后一个文档', '现在没有文档了' ] ## 1.手动实现 words = [] for corpu in corpus: words.extend(corpu.split()) words = list(set(words).

独热编码如何实现

qq_38331273的博客

08-14

900

参考链接通常需要处理的数值都是稀疏而又散乱地分布在空间中，然而，我们并不需要存储这些大数值，这时可以用独热编码。例如：我们需要处理4维向量空间，当给一个特征向量的第n个特征进行编码时，编码器会遍历每个特征向量的第n个特征，然后进行非重复计数。若第n个特征的最大值为K，则就把这个特征转换为只有一个值为1而其他值都是0的K+1维向量。 encoder=OneHotEncoder(sparse=False)&

python实现中文独热编码

09-18

### 回答1：中文独热编码的实现需要先将中文文本转化为数字编码（如Unicode编码），然后再将数字编码转化为独热编码。以下是一个简单的 Python 实现： ```python import numpy as np def text_to_sequence(text): # 将中文文本转化为数字编码 sequence = [] for char in text: sequence.append(ord(char)) return sequence def one_hot_encode(sequence, vocab_size): # 将数字编码转化为独热编码 encoding = np.zeros((len(sequence), vocab_size)) for i, number in enumerate(sequence): encoding[i][number] = 1 return encoding ``` 其中，`text_to_sequence` 函数将中文文本转化为数字编码，并返回一个数字序列。`one_hot_encode` 函数将数字序列转化为独热编码，并返回一个独热编码矩阵。其中，`vocab_size` 参数表示词汇表的大小，即数字编码的最大值加一。示例： ```python text = '中文独热编码' sequence = text_to_sequence(text) encoding = one_hot_encode(sequence, vocab_size=65536) print(encoding) ``` 输出： ``` [[0. 0. 0. ... 0. 0. 0.] [0. 0. 0. ... 0. 0. 0.] [0. 0. 0. ... 0. 0. 0.] ... [0. 0. 0. ... 0. 0. 0.] [0. 0. 0. ... 0. 0. 0.] [0. 0. 0. ... 0. 0. 0.]] ``` 其中，独热编码矩阵的行数为数字序列的长度，列数为词汇表的大小。在独热编码矩阵中，每行表示一个数字编码的独热编码。 ### 回答2： Python可以使用`sklearn`库中的`OneHotEncoder`来实现中文独热编码。首先，需要安装sklearn库，可以使用以下命令进行安装： ``` pip install scikit-learn ``` 接下来，我们可以先将中文字符串转化为数字编码，然后再进行独热编码。可以使用`LabelEncoder`来将中文字符串转化为数字编码。下面是一个示例代码实现： ```python from sklearn.preprocessing import LabelEncoder from sklearn.preprocessing import OneHotEncoder # 定义中文字符串列表 chinese_data = ['苹果', '香蕉', '橙子', '苹果'] # 创建LabelEncoder对象 label_encoder = LabelEncoder() # 将中文字符串转化为数字编码 integer_data = label_encoder.fit_transform(chinese_data) print('数字编码:', integer_data) # 创建OneHotEncoder对象 onehot_encoder = OneHotEncoder(sparse=False) # 将数字编码转化为独热编码 integer_data = integer_data.reshape(len(integer_data), 1) # 将数据转化为二维矩阵 onehot_data = onehot_encoder.fit_transform(integer_data) print('独热编码:', onehot_data) ``` 运行以上代码，可以得到如下输出： ``` 数字编码: [1 2 0 1] 独热编码: [[0. 1. 0.] [0. 0. 1.] [1. 0. 0.] [0. 1. 0.]] ``` 以上示例中，我们先将中文字符串转化为数字编码，然后使用OneHotEncoder将数字编码转化为独热编码。输出结果显示，中文字符串分别被转化为了对应的独热编码。 ### 回答3： Python实现中文独热编码可以通过使用sklearn库中的OneHotEncoder方法实现。首先，我们需要将中文文本转换为数值形式，即将每个中文字符映射到一个唯一的数值。这可以通过构建一个包含所有可能字符的字典来实现。然后，使用sklearn的OneHotEncoder方法将数值形式的中文文本进行独热编码。以下是一个示例代码： ```python from sklearn.preprocessing import OneHotEncoder # 中文文本 texts = ['我喜欢编程', 'Python很有趣', '机器学习很有挑战'] # 构建字典，将每个中文字符映射到一个唯一的数值 char_dict = {} char_index = 1 for text in texts: for char in text: if char not in char_dict: char_dict[char] = char_index char_index += 1 # 将中文文本转换为数值形式，表示为一个二维数组 numeric_texts = [] for text in texts: numeric_text = [char_dict[char] for char in text] numeric_texts.append(numeric_text) # 创建OneHotEncoder对象 encoder = OneHotEncoder() # 对数值形式的中文文本进行独热编码 encoded_texts = encoder.fit_transform(numeric_texts).toarray() print(encoded_texts) ``` 以上代码首先构建了一个字典，用于将中文字符映射到数值。然后，将中文文本转换为数值形式，并使用OneHotEncoder进行独热编码。最后，打印输出独热编码后的结果。注意：以上示例代码仅适用于处理中文字符，若要处理更大范围的中文文本，可能需要更复杂的预处理步骤。