2-1、特征:特征选择、特征预处理(缩放)、特征抽取、特征构造

目录


数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程包含了特征选择(Feature Selection)、特征抽取(Feature Extraction)、特征构造(Feature Construction)等子问题。

特征重要性选择参考 很好的参考

特征重要性

一、特征选择

特征选择的原则:获取尽可能小的特征子集,不显著降低分类精度,不影响分类分布,特征子集应具有的稳定性、适应性等特点。

1、Filter方法(过滤式)

对各特征进行“打分”,赋予特征不同权重,然后对特征按权重进行排序,从而筛选出特征子集,然后用特征子集来训练模型。

优点:运行速度快。
缺点:无法提供反馈。用选择后的特征子集建模,学习算法无法向特征选择传递对特征的需求。另外,可能处理某个特征时由于某个原因判定该特征不重要,而实际中该特征与其他特征结合起来可能会变得更重。

1-1 剔除缺失值过多的变量

通常一个字段的缺失值比例超过20%即可将变量视为无效变量。对于部分算法,可以将缺失值单独编码成一类。

1-2 方差变化

方差变化过小对预测目标变量无意义。

1-3 相关系数(Correlation coefficient scores)

对于线性回归和逻辑回归模型,高度相关的自变量会降低模型性能,产生共线性,此时需要剔除。相关性度量的方法有:

  1. 皮尔逊相关系数(Pearson Correlation): r i j = ∑ k = 1 m ( x k i − x i ˉ ) ( x k j − x j ˉ ) ∑ k = 1 m ( x k i − x i ˉ ) 2 ( x k j − x j ˉ ) 2 r_{ij}=\frac{\sum_{k=1}^m(x_{ki}-\bar{x_i})(x_{kj}-\bar{x_j})}{\sqrt{\sum_{k=1}^m(x_{ki}-\bar{x_i})^2(x_{kj}-\bar{x_j})^2}} rij=k=1m(xkixiˉ)2(xkjxjˉ)2 k=1m(xkixiˉ)(xkjxjˉ)
  2. 距离相关系数:克服了Pearson相关系数进队线性关系敏感的缺点
df.corr()

1-4卡方检验(Chi-squared Test)

描述两个事件的独立性,或描述实际观测值与期望值间的偏离程度。值越大,表明实际观察值和期望值间的偏差越大,两个事件的相互独立性越弱。
过程:将X变量分为k个不相交的小区间 A 1 = ( a 0 , a 1 ] , A 2 = ( a 2 , a 3 ] … A_1=(a_0, a_1], A_2=(a_2, a_3]… A1=(a0,a1],A2=(a2,a3],一般各小区间内样本量不少于5个。各区间内样本量为 f i , ∑ f i = n f_i, \sum f_i=n fi,fi=n。假设与期望分布一致时,则 f i 与 p i n f_i与p_in fipin应该相差不大。 参考
χ 2 ( x , y ) = ∑ ( f i − T i ) 2 T i \chi^2(x,y)=\sum\frac{(f_i-T_i)^2}{T_i} χ2(x,y)=Ti(fiTi)2,其中 f i f_i fi是X的i类(或是与另一变量联合产生的一个区间)的样本量, T i T_i Ti是理论分布值(前面划分的区间的理论分布)。从而得出X的分布是否与期望的一致,或Y变量的分类与X的不同水平是否有关。
可以将数据zhao 类别和考虑的维度制作成表格,行是行为类别,列数是不同对象,从而自由度是(行数-1)*(列数-1)。一行中总数占全量比重是理论分布,从而不同对象没有差异时,可获取每个单元格理论分布值,进而计算出卡方值。

只适用于分类问题中的离散特征筛选,而不适用于连续特征。要
X 1 ∼ χ 2 ( n 1 ) , X 2 ∼ χ 2 ( n 2 ) X_1 \sim \chi^2(n_1),X_2 \sim \chi^2(n_2) X1χ2(n1)X2χ2(n2),则 X 1 + X 2 ∼ χ 2 ( n 1 + n 2 ) X_1+X_2\sim\chi^2(n_1+n_2) X1+X2χ2(n1+n2)

1-5 信息增益(Information Gain)

A、熵: H ( X ) = − ∑ i p i l o g 2 p i = ∑ ∣ D i ∣ ∣ D ∣ l o g 2 ∣ D i ∣ ∣ D ∣ H(X)=-\sum_ip_ilog_2p_i=\sum\frac{|D_i|}{|D|}log_2\frac{|D_i|}{|D|} H(X)=ipilog2pi=DDilog2DDi
条件熵: H ( Y ∣ X ) = ∑ i p i H ( Y ∣ X = x i ) = ∑ i ∣ D x i ∣ D ∑ j ∣ D x = x i , y = y j ∣ ∣ D x = x i ∣ l o g 2 ∣ D x = x i , y = y j ∣ ∣ D x = x i ∣ H(Y|X)=\sum_ip_iH(Y|X=x_i)=\sum_i\frac{|D_{x_i}|}{D}\sum_j\frac{|D_{x=x_i, y=y_j}|}{|D_{x=x_i}|}log_2\frac{|D_{x=x_i, y=y_j}|}{|D_{x=x_i}|} H(YX)=ipiH(YX=xi)=iDDxijDx=xiDx=xi,y=yjlog2Dx=xiDx=xi,y=yj
熵反映了特征所包含的信息量,值越大,信息量越多,不确定性越弱。但是变量的取值个数越多,信息量也会相对越大(均匀分布时熵最大)。因此熵、信息增益倾向于使取值多的特征的熵或信息增益变大。

B、信息增益: g ( D , X ) = H ( D ) − H ( D ∣ X ) = ( − ∑ ∣ D i ∣ ∣ D ∣ l o g 2 ∣ D i ∣ ∣ D ∣ ) − ∑ i ∣ D x i ∣ D ( − ∑ j ∣ D x = x i , y = y j ∣ ∣ D x = x i ∣ l o g 2 ∣ D x = x i , y =

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值