29、特征选择方法综合解析

最新推荐文章于 2025-09-09 13:12:51 发布

脚滑的狐狸160

最新推荐文章于 2025-09-09 13:12:51 发布

阅读量23

点赞数

CC 4.0 BY-SA版权

分类专栏：智能公路：AI赋能养护文章标签：特征选择互信息混合方法

本文链接：https://blog.youkuaiyun.com/nginx7reverse/article/details/151172668

智能公路：AI赋能养护专栏收录该内容

43 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

特征选择方法综合解析

1. 特征选择的基本概念与初步方法

在特征选择领域，有多种方法用于筛选出最具代表性和有效性的特征。首先，S 和 b 可控制当前特征 f 与子集 S 中特征之间的互信息（MI）排名。输出子集通常基于分类器，如神经网络或支持向量机（SVM）。通过特定的方程，能够选择更优的特征集用于分类，因为在计算中利用属性间的互信息来挑选额外属性。

这种方法可根据问题类型进行改进。例如，可使用 Parzen 窗口方法估计互信息，并将最大相关性作为目标函数。还有一种评估标准如下：
[I(x_j, C) - \frac{1}{M - 1} \sum_{x_L \in S_{L - 1}} I(x_j, x_L)]
其中，(x_j) 是子集 S 中的第 m 个特征，(S_{m - 1}) 是到目前为止已选择的包含 m - 1 个特征的子集。

在特征选择过程中，采用了两步法而非贪心算法。第一步，选择一个数字 k，由此确定所需的特征数量，这些特征基于分类器具有最少的误差。嵌入式方法（EM）用于评估不同大小为 k 的子集或不同特征，以找到分类误差始终最小的子集。其他 EM 方法则用于对特征权重进行分类、排名并去除某些特征。特征 (w_j) 的权重定义如下：
[w_j = \frac{m_j^+ - m_j^-}{v_j^+ + v_j^-}]
[D(x) = w x - m]
其中，(m_j^+) 是正类样本的均值，(m_j^-) 是负类样本的均值，(v_j^+) 是正类的方差（(j = 1) 到 D），(v_j^-) 是负类的方差（(j = 1) 到 D），W 是特征的排名或权重，(D(x)) 是决策规则，m 是数据的均值。该方程作为排名