基于sklearn同时处理连续特征和离散特征

最新推荐文章于 2025-07-11 16:28:34 发布

原创最新推荐文章于 2025-07-11 16:28:34 发布 · 7.5k 阅读

17 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

38 篇文章

订阅专栏

本文介绍了一种混合特征处理方法，包括使用LabelEncoder进行预编码、OneHotEncoder进行独热编码，并通过sparse.hstack整合稀疏矩阵特征。此外还介绍了如何利用CountVectorizer对文本数据进行编码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

核心思路：

先用LabelEncoder对离散特征编码，因为onehotencoder只能处理数值

然后使用OneHotEncoder编码，生成稀疏表示的特征

再使用sparse.hstack连接连续特征和稀疏特征

为什么不使用pd.get_dummy呢，因为这样是直接生成的稠密矩阵，内存开销太大

# coding=utf-8
# @author: bryan
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
from scipy import sparse

for feature in cate_feature + con_feature:
    data[feature] = LabelEncoder().fit_transform(data[feature].values)
enc = OneHotEncoder()
train_x=train[numeric_feature]
test_x=test[numeric_feature]
for feature in cate_feature+con_feature:
    enc.fit(data[feature].values.reshape(-1, 1))
    train_a=enc.transform(train[feature].values.reshape(-1, 1))
    test_a = enc.transform(test[feature].values.reshape(-1, 1))
    train_x= sparse.hstack((train_x, train_a))
    test_x = sparse.hstack((test_x, test_a))

# 文本one hot
from sklearn.feature_extraction.text import CountVectorizer
# 每行用空格join起来
data['corpus']=data['corpus'].apply(lambda x:' '.join(x.split(';')))
#如果corpus里面是数字，可能会提示empty vocabulary; perhaps the documents only contain stop words
#改成这样就行了CountVectorizer(token_pattern='(?u)\\b\\w+\\b')
property_feature = CountVectorizer().fit_transform(data['corpus'])
train_x=sparse.hstack((train_property_feature,train_x))