1. 特征选择的原因
- 提高模型稳定性的需要
- 提高模型预测能力的需要
- 提高运算速度和运算效率的需要
2. 特征选择的过程
2.1 结合业务经验先行筛选
很多时间业务专家一针见血的商业敏感性可以有效缩小自变量的考察范围,准确圈定最有价值的预测变量,提高判断和筛选效率。
2.2 用线性相关性指标进行初步筛选
2.2.1 皮尔逊Pearson相关系数
r=∑(x−xˉ)(y−yˉ)∑(x−xˉ)2∑(y−yˉ)2r=\frac{\sum(x-\bar x)(y-\bar y)}{\sqrt{\sum(x-\bar x)^2\sum (y-\bar y)^2}}r=∑(x−xˉ)2∑(y−yˉ)2∑(x−xˉ)(y−yˉ)r∈[−1,+1],∣r∣r\in [-1,+1],|r|r∈[−1,+1],∣r∣越大,线性相关性越强。
- ∣r∣∈[0.7,1]|r|\in [0.7,1]∣r∣∈[0.7,1]强相关关系
- ∣r∣∈[0.4,0.7)|r|\in [0.4,0.7)∣r∣∈[0.4,0.7) 较强相关关系
- ∣r∣∈[0.2,0.4)|r|\in [0.2,0.4)∣r∣∈[0.2,0.4) 弱相关关系
- ∣r∣∈[0,0.3)|r|\in [0,0.3)∣r∣∈[0,0.3) 极弱相关关系或无相关
适用范围:当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:
- 两个变量之间是线性关系,都是连续数据。
- 两个变量的总体是正态分布,或接近正态的单峰分布。
- 两个变量的观测值是成对的,每对观测值之间相互独立。
2.2.2 斯皮尔曼Spearman相关系数
斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。斯皮尔曼相关系数与两个相关变量的具体值无关,而仅仅与其值之间的大小关系有关。
ρ=1−6∑di2n(n2−1)\rho=1-\frac{6\sum{d_i^2}}{n(n^2-1)}ρ=1−n(