12、基于过滤的特征选择方法详解

原创于 2025-08-17 13:22:09 发布 · 30 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#特征选择 # 过滤方法 # 卡方检验

机器学习解密写作风格专栏收录该内容

27 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于过滤的特征选择方法详解

在特征选择领域，除了依据特征频率来选择子集外，还有一种范式是基于每个特征区分不同类别的能力来进行选择。下面将详细介绍这种基于过滤的特征选择方法。

1. 基本原理

该方法的核心原理是先测量每个属性在各个类别上的适用性，以此定义其局部效用值。由于这些适用性值是针对单个类别计算的，所以被称为局部值。接着，根据每个类别计算出的值，可以得出该特征的整体判别能力，即全局效用值。最后，将所有特征按照判别能力从高到低排序，通过提取前 m 个最具判别性的特征，或者选择全局得分大于预设阈值的特征，来确定最终的特征子集。

2. 构建列联表

在文本分类中，为了测量某个术语 $t_i$ 相对于给定类别（或作者）$c_j$ 的效用值，可以构建一个列联表，如下所示：
| | 类别 $c_j$ | 类别 $\overline{c_j}$ | 总和 |
| — | — | — | — |
| 术语 $t_i$ | a | b | a + b |
| 其他术语 ($\overline{t_i}$) | c | d | c + d |
| 总和 | a + c | b + d | n = a + b + c + d |

3. 局部效用函数

以下是几种常见的局部效用函数：
- 点互信息（PMI）
- 公式：$PMI(t_i, c_j) = log_2(\frac{p(t_i, c_j)}{p(t_i) \cdot p(c_j)}) = log_2(\frac{a}{n} \div

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。