1. 问题
机器学习的各个参数,也叫feather,可谓千差万别。在正式建模之前,需要把这些参数标准化(Normalization)。具体情况是怎样的呢?
2. 分析
还是那之前提到的房价案例为例。简单举例,影响房价的参数可能有房价大小,以平方米记,例如从50~200平方米;还有里面的房间数量,比如一室一厅就记为2,三室两厅就记为5。
显然,房间数量和平米数有数量级的差异。140平米的房子,房间数量可能只有5。如果直接用这些原始参数计算,得到的模型必然会出现,某一方的参数掩盖了另一方参数影响的情况。
我们希望能把各个参数放到同一个数量级下进行比较,这就需要用到标准化。通常,我们用以下公式操作
z i = x i − μ σ i z_i = \frac{x_i - \mu}{\sigma_i} zi=σixi−μ
其中
- μ \mu μ: x i x_i xi 的期望;
- σ \sigma σ: x i x_i x