关于归一化和标准化
1.标准化使用条件
(1)不需要对特征进行归一化:基于树模型的方法
举例: 随机森林/bagging/boosting/xgboost
- 需要标准化的(基于距离的模型):回归分析(逻辑回归)/神经网络 / svm
2.相关定义
什么叫归一化(标准化):归一化化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。
为什么要归一化(标准化):
一是,为了后面数据处理的方便,把不同量纲的东西放在同一量纲下比较,即把不同来源的数据统一到一个参考系下,这样比较起来才有意义。
简单的举个例子:一张表有两个变量,一个是体重kg,一个是身高cm。假设一般情况下体重这个变量均值为60(kg),身高均值为170(cm)。1,这两个变量对应的单位不一样,同样是100,对于身高来说很矮,但对于体重来说已经是超重了。另外,单位越小,数值越大,对结果的影