推荐1
步骤1:数据审查
观察数据集中趋势、离中趋势、分布形状、缺失、重复值、异常值、共线性(相关性)
判断共线性(相关性)的方法:
1.皮尔逊相关系数(连续性变量): r p b = ∑ i = 0 ( x i − x a v r ) ( y i − y a v r ) ∑ i = 0 ( x i − x a v r ) 2 ( y i − y a v r ) 2 r_{pb} = \frac{\sum_{i=0}(x_i -x_{avr})(y_i-y_{avr})}{\sqrt{\sum_{i=0}(x_i-x_{avr})^2(y_i-y_{avr})^2}} rpb=∑i=0(xi