原始数据分布:
- StandardScaler:通过减去均值,除以标准差。异常数据对均值和方差的影响很大,会导致特征数据范围缩小 z=(x−u)sz = \frac{(x - u)}{ s}z=s(x−u)
- MinMaxScaler将所有数据归一化到[0,1]区间内,但是由于异常值的影响,特征数据的分布范围变得很窄。与standardscalar一样,对异常值铭感Xstd=(X−X.min)(X.max(axis=0)−X.min(axis=0))X_{std} = \frac{(X - X.min)} {(X.max(axis=0) - X.min(axis=0))}Xstd=(X.max(axis=0)−X.min(axis=0))(X−X.min)Xscaled=Xstd∗(max−min)+minX_{scaled} = X_{std} * (max - min) + minXscaled=Xstd∗(max−min)+min
MaxAbsScaler,将数据压缩到了[-1,1]区间内,对异常值敏感X=X∣X∣.maxX=\frac{X}{|X|.max}X=∣X∣.maxX
RobustScaler和前面三个方法不同,对异常值不敏感$$$$
PowerTransformer$$$$
QuantileTransformer (Gaussian output)$$$$
QuantileTransformer (uniform output)
Normalizer