特征选择——Matrix Projection算法研究与实现

最新推荐文章于 2024-05-31 07:30:00 发布

xsdjj

最新推荐文章于 2024-05-31 07:30:00 发布

阅读量2.1k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：文本分类特征选择创新研究机器学习算法设计文章标签：文本分类特征选择自然语言处理

本文链接：https://blog.youkuaiyun.com/xsdjj/article/details/83796621

本文提出了基于矩阵投影(Matrix Projection, MP)的特征选择方法，用于解决文本分类中的高维特征问题。MP算法综合考虑词组的文档频率和类别内平均词频，通过垂直投影压缩信息并建立类别间词组关联。实验表明，MP在kNN、MNNB和SVM等分类算法上表现出较好的分类效果，尤其对比文档频率(DF)方法有显著优势。" 80048570,7493492,Win7+Ubuntu 16.04 LTS双系统安装全攻略,"['Ubuntu', 'Windows7', '双系统', '硬盘分区', '系统安装']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言

一般选择文本的词组作为分类器输入向量的特征语义单元，而作为单词或词语的词组，在任何一种语言中都有数万或数十万个。另外，对于Web文本检索应用来说，互联网每天可能都会产生各种各样的新词汇。这样文本分类问题就面临着特征向量的维数灾难问题。有许多理由要求必须将特征的数量减少到尽可能的小，其中时间和空间复杂度就是很重要的理由。另一方面，虽然两个特征可能具有很好的分类信息，但是当把它们合并成一个特征时，由于相关性，分类信息可能丢失。设计分类器不仅要保证分类正确率，还要保证其分类性能。特征选择的任务就是：在给定的词组中，选择具有重要分类信息而又能减少特征的词组作为分类文本的特征。特征选择的过程也是特征压缩的过程，如果选择的特征不具有分类识别能力，那么将会设计出得到分类效果很差的分类器。另一方面，如果选择的特征能够很好的保留分类信息，除去那些几乎不能识别类别的词组，将在很大程度上简化分类器的设计。

MP特征选择思想

对于删除标点符号和停用的词组表示的文本，其中的词组具有不同的类别识别能力。本文提出一种基于矩阵投影(Matrix Projection，MP)运算的特征选择方法。矩阵投影特征选择方法是基于概率模型，综合考虑词组的文档频率以及词组在单个类别下的平均词频进行特征选择。这里的文档频率不是整个训练数据集的文档频率，而是一个词组在摸个类别下的文档频率，即该词组在一个类别下出现的文本数量比上该类别文本总数。词频为一篇文本中某词出现的次数比上该文本的总词数。平均词频是一个词在该类别下每一篇文本中的词频的算术平均。特征提取的过程：对已标注的训练语料，统计词组在类别中的文档频率 ,以及特征项在类别中每一个文档的词频。通过投影函数计算词组在类别中的矩阵投影结果。根据运算结果的大小进行特征选择，最终选取那些结果值比较大的词组作为分类的特征。