2-1、特征：特征选择、特征预处理（缩放）、特征抽取、特征构造

最新推荐文章于 2024-07-26 12:58:38 发布

fengsuiwoxing21

最新推荐文章于 2024-07-26 12:58:38 发布

阅读量1.5k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习 python sklearn

本文链接：https://blog.youkuaiyun.com/fengsuiwoxing/article/details/87917969

特征重要性

一、特征选择

特征选择的原则：获取尽可能小的特征子集，不显著降低分类精度，不影响分类分布，特征子集应具有的稳定性、适应性等特点。

1、Filter方法（过滤式）

对各特征进行“打分”，赋予特征不同权重，然后对特征按权重进行排序，从而筛选出特征子集，然后用特征子集来训练模型。

优点：运行速度快。
缺点：无法提供反馈。用选择后的特征子集建模，学习算法无法向特征选择传递对特征的需求。另外，可能处理某个特征时由于某个原因判定该特征不重要，而实际中该特征与其他特征结合起来可能会变得更重。

1-1 剔除缺失值过多的变量

通常一个字段的缺失值比例超过20%即可将变量视为无效变量。对于部分算法，可以将缺失值单独编码成一类。

1-2 方差变化

方差变化过小对预测目标变量无意义。

1-3 相关系数（Correlation coefficient scores）

对于线性回归和逻辑回归模型，高度相关的自变量会降低模型性能，产生共线性，此时需要剔除。相关性度量的方法有：

皮尔逊相关系数（Pearson Correlation）： $r_{ij}=\frac{\sum_{k=1}^m(x_{ki}-\bar{x_i})(x_{kj}-\bar{x_j})}{\sqrt{\sum_{k=1}^m(x_{ki}-\bar{x_i})^2(x_{kj}-\bar{x_j})^2}}$
距离相关系数：克服了Pearson相关系数进队线性关系敏感的缺点

df.corr()

1-4卡方检验（Chi-squared Test）

描述两个事件的独立性，或描述实际观测值与期望值间的偏离程度。值越大，表明实际观察值和期望值间的偏差越大，两个事件的相互独立性越弱。
过程：将X变量分为k个不相交的小区间 $A_1=(a_0, a_1], A_2=(a_2, a_3]…$ ，一般各小区间内样本量不少于5个。各区间内样本量为 $f_i, \sum f_i=n$ 。假设与期望分布一致时，则 $f_i与p_in$ 应该相差不大。参考
$\chi^2(x,y)=\sum\frac{(f_i-T_i)^2}{T_i}$ ，其中 $f_i$ 是X的i类（或是与另一变量联合产生的一个区间）的样本量， $T_i$ 是理论分布值（前面划分的区间的理论分布）。从而得出X的分布是否与期望的一致，或Y变量的分类与X的不同水平是否有关。
可以将数据zhao 类别和考虑的维度制作成表格，行是行为类别，列数是不同对象,从而自由度是(行数-1)*(列数-1)。一行中总数占全量比重是理论分布，从而不同对象没有差异时，可获取每个单元格理论分布值，进而计算出卡方值。

只适用于分类问题中的离散特征筛选，而不适用于连续特征。要
若 $X_1 \sim \chi^2(n_1)，X_2 \sim \chi^2(n_2)$ ，则 $X_1+X_2\sim\chi^2(n_1+n_2)$

1-5 信息增益（Information Gain）

A、熵： $H(X)=-\sum_ip_ilog_2p_i=\sum\frac{|D_i|}{|D|}log_2\frac{|D_i|}{|D|}$
条件熵： $H(Y|X)=\sum_ip_iH(Y|X=x_i)=\sum_i\frac{|D_{x_i}|}{D}\sum_j\frac{|D_{x=x_i, y=y_j}|}{|D_{x=x_i}|}log_2\frac{|D_{x=x_i, y=y_j}|}{|D_{x=x_i}|}$
熵反映了特征所包含的信息量，值越大，信息量越多，不确定性越弱。但是变量的取值个数越多，信息量也会相对越大（均匀分布时熵最大）。因此熵、信息增益倾向于使取值多的特征的熵或信息增益变大。

B、信息增益： $X)=H(D)-H(D|X)=(-\sum\frac{|D_i|}{|D|}log_2\frac{|D_i|}{|D|})-\sum_i\frac{|D_{x_i}|}{D}(-\sum_j\frac{|D_{x=x_i, y=y_j}|}{|D_{x=x_i}|}log_2\frac{|D_{x=x_i, y=y_j}|}{|D_{x=x_i}|})$