基于改进点互信息的特征选择方法研究
在文本处理和数据挖掘领域,特征选择是一项关键任务,它能够有效降低数据维度,提高模型性能。本文将介绍一种基于改进点互信息(mPMI)的特征选择方法,并通过实验验证其有效性。
1. 相关研究概述
在特征选择领域,已经有多种方法被提出。例如,加权平均点互信息(WAPMI)被用于改进朴素贝叶斯分类器的性能,它旨在克服词独立性假设和文档长度差异带来的问题。还有基于三角函数比较的特征选择方法,它依据不同类别文档中词的相对频率以及词在特定类别中比其他类别更频繁出现的程度来进行特征选择。另外,也有将特征提取和特征选择相结合的方法,其特征选择度量基于提取特征在类别中的相对频率和卡方度量。
2. 改进点互信息(mPMI)方法
2.1 传统点互信息(PMI)的不足
传统的点互信息在计算特征选择权重时,没有考虑词在特定类别文档内外的相对频率。例如,假设有两个词 $t_i$ 和 $t_j$,它们在文档集中的出现频率相同,但 $t_i$ 主要出现在类别 $C_k$ 的文档中,而 $t_j$ 在所有文档中都很常见。按照传统的 PMI 计算,这两个词会得到相同的 PMI 值,但实际上 $t_i$ 更能代表类别 $C_k$ 的文档。
此外,传统的点互信息计算还存在两个缺点:
- 对于只在特定类别 $C_k$ 中出现的罕见词(如拼写错误或例外情况),其得分会高于在其他类别中也有出现但在 $C_k$ 中占主导的词。
- 对于只(或主要)在类别 $C_k$ 中出现的词,无论其在该类别中的出现频率如何,都会得到相同或相近的结果。
超级会员免费看
订阅专栏 解锁全文
4840

被折叠的 条评论
为什么被折叠?



