引言
一般选择文本的词组作为分类器输入向量的特征语义单元,而作为单词或词语的词组,在任何一种语言中都有数万或数十万个。另外,对于Web文本检索应用来说,互联网每天可能都会产生各种各样的新词汇。这样文本分类问题就面临着特征向量的维数灾难问题。有许多理由要求必须将特征的数量减少到尽可能的小,其中时间和空间复杂度就是很重要的理由。另一方面,虽然两个特征可能具有很好的分类信息,但是当把它们合并成一个特征时,由于相关性,分类信息可能丢失。设计分类器不仅要保证分类正确率,还要保证其分类性能。特征选择的任务就是:在给定的词组中,选择具有重要分类信息而又能减少特征的词组作为分类文本的特征。特征选择的过程也是特征压缩的过程,如果选择的特征不具有分类识别能力,那么将会设计出得到分类效果很差的分类器。另一方面,如果选择的特征能够很好的保留分类信息,除去那些几乎不能识别类别的词组,将在很大程度上简化分类器的设计。
MP特征选择思想
对于删除标点符号和停用的词组表示的文本,其中的词组具有不同的类别识别能力。本文提出一种基于矩阵投影(Matrix Projection,MP)运算的特征选择方法。矩阵投影特征选择方法是基于概率模型,综合考虑词组的文档频率以及词组在单个类别下的平均词频进行特征选择。这里的文档频率不是整个训练数据集的文档频率,而是一个词组在摸个类别下的文档频率,即该词组在一个类别下出现的文本数量比上该类别文本总数。词频为一篇文本中某词出现的次数比上该文本的总词数。平均词频是一个词在该类别下每一篇文本中的词频的算术平均。特征提取的过程:对已标注的训练语料,统计词组在类别中的文档频率 ,以及特征项在类别中每一个文档的词频 。通过投影函数计算词组在类别中的矩阵投影结果。根据运算结果的大小进行特征选择,最终选取那些结果值比较大的词组作为分类的特征。
MP特征选择算法
下面通过定义矩阵投影运算逐步引出MP特征选择过程。首先给出矩阵投影的一般定义如下。
定义 :矩阵投影:设 A 是一个mxn 的矩阵,即 AmXn=(aij)mXn,矩阵中各元素间相互独立。投影运算过程如图1所示:

矩阵 A 通过投影运算得到 1Xn 的矩阵 B 和 的矩阵 C :

矩阵 B 和矩阵 C 称为矩阵 A 的投影。其中矩阵B是矩阵A的垂直投影, φ(a1i,a2i,…,ami) 叫做垂直投影函数;矩阵 C