pandas 下的 one hot encoder 及 pd get dummies 与 sklearn prepr

最新推荐文章于 2023-12-05 18:47:42 发布

原创最新推荐文章于 2023-12-05 18:47:42 发布 · 337 阅读

CC 4.0 BY-SA版权

本文深入探讨了sklearn.preprocessing下的特征编码方法，包括OneHotEncoder和LabelEncoder的使用，以及如何处理字符串类型的特征。同时，介绍了DictVectorizer的应用，展示了将字典类型的属性转换为向量的具体操作。

分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.youkuaiyun.com/jiangjunshow

也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！

sklearn.preprocessing 下除了提供 OneHotEncoder 还提供 LabelEncoder（简单地将 categorical labels 转换为不同的数字）；

1. 简单区别

Panda’s get_dummies vs. Sklearn’s OneHotEncoder() :: What is more efficient?

sklearn.preprocessing 下的 OneHotEncoder 不可以直接处理 string，如果数据集中的某些特征是 string 类型的话，需要首先将其转换为 integers 类型；
- 在新版本中 sklearn 中，OneHotEncoder 实例的 fit 方法将不再接收 1 维数组，而必须是显式的二维形式；
```
encoder = OneHotEncoder()encoder.fit([[1, 2], [2, 1]])
    1
2
```

pd.get_dummies()，则恰将 string 转换为 integers 类型：

>> pd.get_dummies(['A', 'B', 'A'])   A  B0  1  01  0  12  1  0
    1
2
3
4
5

2. sklearn.feature_extraction 下的 DictVectorizer

How can i vectorize list using sklearn DictVectorizer

将字典类型表示的属性，转换为向量类型：

>> measurements = [     {'city=Dubai': True, 'city=London': True, 'temperature': 33.},     {'city=London': True, 'city=San Fransisco': True, 'temperature': 12.},     {'city': 'San Fransisco', 'temperature': 18.},]>> vec.feature_names['city=Dubai', 'city=London', 'city=San Fransisco', 'temperature']>> vec.fit_transform(measurements).toarray()array([[  1.,   1.,   0.,  33.],       [  0.,   1.,   1.,  12.],       [  0.,   0.,   1.,  18.]])
  1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

给我老师的人工智能教程打call！http://blog.youkuaiyun.com/jiangjunshow