特征选择方法综合解析
1. 特征选择的基本概念与初步方法
在特征选择领域,有多种方法用于筛选出最具代表性和有效性的特征。首先,S 和 b 可控制当前特征 f 与子集 S 中特征之间的互信息(MI)排名。输出子集通常基于分类器,如神经网络或支持向量机(SVM)。通过特定的方程,能够选择更优的特征集用于分类,因为在计算中利用属性间的互信息来挑选额外属性。
这种方法可根据问题类型进行改进。例如,可使用 Parzen 窗口方法估计互信息,并将最大相关性作为目标函数。还有一种评估标准如下:
[I(x_j, C) - \frac{1}{M - 1} \sum_{x_L \in S_{L - 1}} I(x_j, x_L)]
其中,(x_j) 是子集 S 中的第 m 个特征,(S_{m - 1}) 是到目前为止已选择的包含 m - 1 个特征的子集。
在特征选择过程中,采用了两步法而非贪心算法。第一步,选择一个数字 k,由此确定所需的特征数量,这些特征基于分类器具有最少的误差。嵌入式方法(EM)用于评估不同大小为 k 的子集或不同特征,以找到分类误差始终最小的子集。其他 EM 方法则用于对特征权重进行分类、排名并去除某些特征。特征 (w_j) 的权重定义如下:
[w_j = \frac{m_j^+ - m_j^-}{v_j^+ + v_j^-}]
[D(x) = w x - m]
其中,(m_j^+) 是正类样本的均值,(m_j^-) 是负类样本的均值,(v_j^+) 是正类的方差((j = 1) 到 D),(v_j^-) 是负类的方差((j = 1) 到 D),W 是特征的排名或权重,(D(x)) 是决策规则,m 是数据的均值。该方程作为排名
超级会员免费看
订阅专栏 解锁全文
7427

被折叠的 条评论
为什么被折叠?



