基于过滤的特征选择方法详解
在特征选择领域,除了依据特征频率来选择子集外,还有一种范式是基于每个特征区分不同类别的能力来进行选择。下面将详细介绍这种基于过滤的特征选择方法。
1. 基本原理
该方法的核心原理是先测量每个属性在各个类别上的适用性,以此定义其局部效用值。由于这些适用性值是针对单个类别计算的,所以被称为局部值。接着,根据每个类别计算出的值,可以得出该特征的整体判别能力,即全局效用值。最后,将所有特征按照判别能力从高到低排序,通过提取前 m 个最具判别性的特征,或者选择全局得分大于预设阈值的特征,来确定最终的特征子集。
2. 构建列联表
在文本分类中,为了测量某个术语 $t_i$ 相对于给定类别(或作者)$c_j$ 的效用值,可以构建一个列联表,如下所示:
| | 类别 $c_j$ | 类别 $\overline{c_j}$ | 总和 |
| — | — | — | — |
| 术语 $t_i$ | a | b | a + b |
| 其他术语 ($\overline{t_i}$) | c | d | c + d |
| 总和 | a + c | b + d | n = a + b + c + d |
3. 局部效用函数
以下是几种常见的局部效用函数:
- 点互信息(PMI)
- 公式 :$PMI(t_i, c_j) = log_2(\frac{p(t_i, c_j)}{p(t_i) \cdot p(c_j)}) = log_2(\frac{a}{n} \div
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



