12、基于过滤的特征选择方法详解

基于过滤的特征选择方法详解

在特征选择领域,除了依据特征频率来选择子集外,还有一种范式是基于每个特征区分不同类别的能力来进行选择。下面将详细介绍这种基于过滤的特征选择方法。

1. 基本原理

该方法的核心原理是先测量每个属性在各个类别上的适用性,以此定义其局部效用值。由于这些适用性值是针对单个类别计算的,所以被称为局部值。接着,根据每个类别计算出的值,可以得出该特征的整体判别能力,即全局效用值。最后,将所有特征按照判别能力从高到低排序,通过提取前 m 个最具判别性的特征,或者选择全局得分大于预设阈值的特征,来确定最终的特征子集。

2. 构建列联表

在文本分类中,为了测量某个术语 $t_i$ 相对于给定类别(或作者)$c_j$ 的效用值,可以构建一个列联表,如下所示:
| | 类别 $c_j$ | 类别 $\overline{c_j}$ | 总和 |
| — | — | — | — |
| 术语 $t_i$ | a | b | a + b |
| 其他术语 ($\overline{t_i}$) | c | d | c + d |
| 总和 | a + c | b + d | n = a + b + c + d |

3. 局部效用函数

以下是几种常见的局部效用函数:
- 点互信息(PMI)
- 公式 :$PMI(t_i, c_j) = log_2(\frac{p(t_i, c_j)}{p(t_i) \cdot p(c_j)}) = log_2(\frac{a}{n} \div

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值