数据特征缩放与转换全解析
1. 特征缩放的重要性及常见方法
在处理数据时,特征缩放是一项关键的转换操作。大多数机器学习算法在输入的数值属性尺度差异较大时,表现往往不佳。以住房数据为例,房间总数的范围大约从 6 到 39320,而收入中位数仅在 0 到 15 之间。若不进行缩放,多数模型会倾向于忽略收入中位数,而更关注房间数量。
常见的特征缩放方法有两种:最小 - 最大缩放(Min - Max Scaling)和标准化(Standardization)。
1.1 最小 - 最大缩放(Min - Max Scaling)
最小 - 最大缩放,也被很多人称为归一化,是最简单的缩放方法。对于每个属性,其值会被移动并重新缩放,最终范围会落在 0 到 1 之间。具体操作是先减去最小值,再除以最小值和最大值的差值。在 Scikit - Learn 中,可以使用 MinMaxScaler 来实现:
from sklearn.preprocessing import MinMaxScaler
min_max_scaler = MinMaxScaler(feature_range=(-1, 1))
housing_num_min_max_scaled = min_max_scaler.fit_transform(housing_num)
这里的 feature_range 超参数可以让你改变缩放的范围。例如,神经网络通常在零均值输入时表现最佳,所以 - 1 到 1 的范围可能更合适。
超级会员免费看
订阅专栏 解锁全文
5227

被折叠的 条评论
为什么被折叠?



