基于sklearn同时处理连续特征和离散特征

本文介绍了一种混合特征处理方法,包括使用LabelEncoder进行预编码、OneHotEncoder进行独热编码,并通过sparse.hstack整合稀疏矩阵特征。此外还介绍了如何利用CountVectorizer对文本数据进行编码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

核心思路:

先用LabelEncoder对离散特征编码,因为onehotencoder只能处理数值

然后使用OneHotEncoder编码,生成稀疏表示的特征

再使用sparse.hstack连接连续特征和稀疏特征

为什么不使用pd.get_dummy呢,因为这样是直接生成的稠密矩阵,内存开销太大

 

# coding=utf-8
# @author: bryan
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
from scipy import sparse

for feature in cate_feature + con_feature:
    data[feature] = LabelEncoder().fit_transform(data[feature].values)
enc = OneHotEncoder()
train_x=train[numeric_feature]
test_x=test[numeric_feature]
for feature in cate_feature+con_feature:
    enc.fit(data[feature].values.reshape(-1, 1))
    train_a=enc.transform(train[feature].values.reshape(-1, 1))
    test_a = enc.transform(test[feature].values.reshape(-1, 1))
    train_x= sparse.hstack((train_x, train_a))
    test_x = sparse.hstack((test_x, test_a))

# 文本one hot
from sklearn.feature_extraction.text import CountVectorizer
# 每行用空格join起来
data['corpus']=data['corpus'].apply(lambda x:' '.join(x.split(';')))
#如果corpus里面是数字,可能会提示empty vocabulary; perhaps the documents only contain stop words
#改成这样就行了CountVectorizer(token_pattern='(?u)\\b\\w+\\b')
property_feature = CountVectorizer().fit_transform(data['corpus'])
train_x=sparse.hstack((train_property_feature,train_x))

 

连续特征离散化是为了将数值型特征转化为分类变量,便于机器学习模型理解处理。常见的处理方法包括: 1. **等宽分箱**(Equal Width Binning):将数据分成固定大小的区间,每个区间的边界值是均匀分布的。例如,可以使用`sklearn.preprocessing.Binarizer`或`pandas.cut()`函数。 ```python from sklearn.preprocessing import KBinsDiscretizer bins = KBinsDiscretizer(n_bins=5, strategy='uniform') # n_bins表示分箱数 bins.fit_transform(your_continuous_column) ``` 2. **等频分箱**(Equal Frequency Binning):保证每个区间的样本数大致相等,适合数据分布不均匀的情况。`pd.qcut()`函数可用于此目的。 ```python df['discrete_column'] = pd.qcut(df['your_continuous_column'], q=5) # q表示分箱数 ``` 3. **最优分箱**(Optimal Binning):通过一些算法寻找最优的分箱策略,如基于信息熵、基尼系数等。`pyoptbinning`库提供这类功能。 ```python from pyoptbinning import OptunaBinner binner = OptunaBinner() binned_data = binner.fit_transform(your_continuous_column) ``` 4. **自然划分**(Natural Breaks):如 Jenks优化法(Jenks Natural Breaks),它会尝试找到数据内部变异最小的分段。`scipy.cluster.hierarchy.fclusterdata()`函数可以实现。 ```python from scipy.cluster.hierarchy import fclusterdata clusters = fclusterdata(your_continuous_column, criterion='maxclust', t=number_of_bins) ``` 处理完之后,记得检查离散后的特征是否保持了原有的业务含义,并评估其对模型性能的影响。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值