特征分箱与缩放:优化机器学习特征处理
在机器学习中,特征处理是至关重要的一步,它能够显著提升模型的性能。本文将详细介绍特征分箱和特征缩放的相关内容,包括不同的分箱方法、缩放策略以及如何在实际中应用这些技术。
特征分箱
特征分箱是将连续变量离散化的过程,它可以帮助我们处理数据中的偏态、异常值等问题。下面将介绍几种常见的分箱方法。
等宽和等频分箱
以 COVID 病例数据为例,我们可以尝试使用分箱方法。以下是具体步骤:
1. 导入必要的库并创建训练和测试数据集
import pandas as pd
from feature_engine.discretisation import EqualFrequencyDiscretiser as efd
from feature_engine.discretisation import EqualWidthDiscretiser as ewd
from sklearn.preprocessing import KBinsDiscretizer
from sklearn.model_selection import train_test_split
covidtotals = pd.read_csv("data/covidtotals.csv")
feature_cols = ['location','population', 'aged_65_older','diabetes_prevalence','region']
covidtotals = covidtotals[['total_c
超级会员免费看
订阅专栏 解锁全文
32

被折叠的 条评论
为什么被折叠?



