《Statistical Pattern Recognition》chapter 10: Feature Selection and Extraction

Sarah ฅʕ•̫͡•ʔฅ

已于 2022-05-24 19:26:47 修改

阅读量178

点赞数

CC 4.0 BY-SA版权

分类专栏：综合-机器学习理论文章标签： python 开发语言

于 2019-03-04 11:15:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u014765410/article/details/88081597

综合-机器学习理论专栏收录该内容

77 篇文章

订阅专栏

Part I：总结 10.2.3 及之前的内容

0、特征选择的方法主要包含3大类：filter，wrapper，embedded；

1、特征选择主要包含2大步，第一步：生成特征子集（a subset generation method）；第二部：对生成的特征子集评估其对数据的代表性（an evaluation method）；

2、对特征子集的评估方法分为两大类：1）根据数据本身特性来评估特征子集的优劣（这种类型的评估方法主要用于"filter 特征选择"）；2）将特征选择融入 “目标函数（损失函数）”中（这种类型的评估方法主要用于 wrapper，embedded 特征选择）；下面对这2种类型的特征评估方法分别予以介绍：

基于“数据属性”的特征评估方法
这种评估方法又可以分为4小类：
1）Feature Ranking
Way 1. 利用Pearson Correlation coefficience 来计算 feature x 与 label y之间的相关程度，如果显著相关，则说明feature x 能够有效表达数据。note that：皮尔森系数只能判定单个feature与label的线性关系，无法判断二者的"非线性关系"，也无法判断不同的 feature组合是否会与 label 产生相关，因此，这种feature evaluation方法很片面，在实际中不适用。
以下为“皮尔森系数”计算公式：；
Way 2. 利用 mutual information 来判断 single feature 的优劣
首先，给出利用feature x分枝前 “熵”的公式：；
其次，利用feature x分枝后 “熵”的公式：
根据“分枝前后”的信息增益，我们即可判断feature x的优劣，信息增益的计算公式如下：。
对于两个feature x,z，如果 MI(X|Y) > MI(Z|Y)，则说明 feature x较z 更优。
与“Pearson correlation coefficience”相比，“mutual information” 中，feature x 和 label y的关系不在仅局限于 linear relationship。
“mutual information” 的缺陷在于，他需要知道变量的probability density function，对于“连续型”变量来说，这个有点儿难办，不太适用。如果非要对“连续型变量”适用mutual information的话，需先将其离散化。
Way 3. 上边的两种方法仅能对single feature评估优劣，但是，在一些任务中，a single feature可能与其他feature(context)存在关联，为了评估在context情况下，feature的优劣，我们引入了Relief算法家族，以下为其中一个Relief算法，其核心公式如下：
其中，n为sample的个数，K为类别的个数，xi,j为sample_i的feature_j的值，Xmk(i),j为sample_i在同类样本中的最近邻的 feature_j的值，Xhk(i),j 为sample_i在不同类样本中的最近邻的 feature_j的值。
Relief的核心思想是：判断类内近邻距离和类间近邻距离的大小，如果前者 < 后者，说明feature_j 可以表达数据，否则，不可以。
2) Interclass distance
(1) Binary variables
对于二进制数据x={x1,x2,…}，y={y1,y2,…}，有如下规律：

将上述规律表示为图表如下：

对于两个二进制变量x，y的相似性测量，我们可以用如下表格中的公式：

(2) Numeric variables
对于数值型的变量x,y，我们可以采用如下表格中的公式度量二者之间的距离：

通过上述距离公式，我们可以求出feature_i中“同一类别” 以及 “不同类别” 变量的距离和 Sw，Sb，通过比较 Sw / Sb 与 1的大小即可获得feature_i的优劣度评价，如果Sw/Sb < 1，则说明 feature_i可以表达数据，反之，则不能。这个思想有点儿像“Fisher线性判别的思想”。
3) Probabilistic distance
利用KL距离来判定不同类别下feature_i中的变量分布是否相同，如果相同，则说明feature_i不能有效表达数据，如果不相同，则feature_i可以有效表达数据。
首先，给出KL距离公式定义，对于两个distribution ，其KL距离如下：

在了解了KL距离公式后，我们即可用KL距离来表示P(x|w1)与P(x|w2)的差别，其中P(x|w1)，P(x|w2)分别为类别w1,w2中变量x的分布函数，表达公式如下：

P(x|w1)与P(x|w2)的分布函数越接近，则JD越接近0，此时feature_i无法有效表达数据，反之，则可以。
下面给出其它的probabilistic distance measures：

4） Probabilistic dependence
probabilistic dependence 主要考察的是P(x|w)和P(x) 概率分布是否一致，如果一致，则说明feature_i无法有效表达数据，下面给出一些probabilistic dependence measures的公式：
基于“目标函数”的特征评估方法
在该方法中，将“特征评估”融入到了 model 损失函数优化中，wrapper，embedded，均属于这种方法。
wrapper中，是通过 model损失函数值来判断特征子集的优劣，因此，利用该方法选择的特征，更能很好的与model结合。
embedded中，是将特征选择嵌入到了损失函数（目标函数）中，具体做法是，在原损失函数的基础上，加入L1正则项，用于生成稀疏特征。

----------------------------------以上为10.2.3 及以前内容总结----------------------------------

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Sarah ฅʕ•̫͡•ʔฅ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。