特征工程
七种常用的特征工程
特征提取+数据预处理四部走
特征归一化
- 为啥要归一化
百面机器学习上那个例子我觉得全
就一个角度:
让不同量纲的特征对最终模型有着近似、相似的影响力,可能不完全相同,保证特征之间的公平性
以计算距离为例,很好理解,略
以线性回归为例, w 1 x 1 + w 2 x 2 = y w_1x_1+w_2x_2=y w1x1+w2x2=y,损失就是 L = Σ i n ( w 1 x i 1 + w 2 x i 2 − y ˉ ) 2 L=\Sigma_i^n(w_1x_{i1}+w_2x_{i2}-\bar{y})^2 L=Σin(w1xi1+w2xi2−yˉ)2,展开之后有 w 1 , w 2 w_1,w_2 w1,w2的二次项,还有一个交叉项,对 w 1 w_1 w