数据预处理（2）—— One-hot coding 独热编码#分别使用 pandans.dummies 和 sklearn.feature_extraction.DictVectorizer 进行处理

最新推荐文章于 2025-11-01 10:12:33 发布

原创

最新推荐文章于 2025-11-01 10:12:33 发布 · 2.4k 阅读

2 ·

CC 4.0 BY-SA版权

本文为博主原创文章，未经博主允许不得转载。哈哈哈

文章标签：

#color #编码 #数据 #numpy

离散 feature 的 encoding 分为两种情况：

1、离散 feature 的取值之间没有大小的意义，比如color：[red,blue],那么就使用 one-hot encoding

2、离散 feature 的取值有大小的意义，比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}

In [90]:

                 
             import numpy as np 
             import pandas as pd 
             from pandas import Series, DataFrame 
             np.set_printoptions(precision=4)

…

In [91]:

                 
             
 
             df = pd.DataFrame([   
                         ['green', 'M', 10.1, 'class1'],    
                         ['red', 'L', 13.5, 'class2'],    
                         ['blue', 'XL', 15.3, 'class1']])   
             df.columns = ['color', 'size', 'prize', 'class label']   
             df