[ML with Sklearn]特征提取与处理

最新推荐文章于 2025-06-25 12:06:58 发布

原创

最新推荐文章于 2025-06-25 12:06:58 发布 · 1.1k 阅读

3 ·

CC 4.0 BY-SA版权

该博客介绍了如何使用sklearn对分类变量进行独热编码，并探讨了词库模型在文本特征向量化中的应用，包括词块化、停用词过滤以及词形还原在特征降维中的作用。

①分类变量特征提取

分类变量通常用独热编码(One-of-K or One-Hot Encoding)，通过二进制来表示每个自变量特征。

例如，假设city变量有三个值：New York, San Francisco, Chapel Hill。独热编码方式就是用三位二进制数表示city特征，其中每一位代表一个城市。

利用sklearn.feature_extraction.DictVectorizer(dtype=<type ‘numpy.float64’>, separator=’=’,sparse=True, sort=True)类可以用来表示分类特征：

In [1]: from sklearn.feature_extraction import DictVectorizer
   ...: onehot_encoder = DictVectorizer()
   ...: instances = [{'city':'New York'},{'city':'San Francisco'},{'city':'Chap
   ...: el Hill'}]
   ...: onehot_encoder.fit_transform(instances)
   ...:
Out[1]:
<3x3 sparse matrix of type '<class 'numpy.float64'>'
        with 3 stored elements in Compressed Sparse Row format>

In [2]: type(onehot_encoder.fit_transform(instances))
Out[2]: scipy.sparse.csr.csr_matrix

In [3]: print(onehot_encoder.fit_transform(instances))
  (0, 1)        1.0
  (1, 2)        1.0
  (2, 0)        1.0

经过fit_transform