特征选择——Matrix Projection算法研究与实现

本文提出了基于矩阵投影(Matrix Projection, MP)的特征选择方法,用于解决文本分类中的高维特征问题。MP算法综合考虑词组的文档频率和类别内平均词频,通过垂直投影压缩信息并建立类别间词组关联。实验表明,MP在kNN、MNNB和SVM等分类算法上表现出较好的分类效果,尤其对比文档频率(DF)方法有显著优势。" 80048570,7493492,Win7+Ubuntu 16.04 LTS双系统安装全攻略,"['Ubuntu', 'Windows7', '双系统', '硬盘分区', '系统安装']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

引言

  一般选择文本的词组作为分类器输入向量的特征语义单元,而作为单词或词语的词组,在任何一种语言中都有数万或数十万个。另外,对于Web文本检索应用来说,互联网每天可能都会产生各种各样的新词汇。这样文本分类问题就面临着特征向量的维数灾难问题。有许多理由要求必须将特征的数量减少到尽可能的小,其中时间和空间复杂度就是很重要的理由。另一方面,虽然两个特征可能具有很好的分类信息,但是当把它们合并成一个特征时,由于相关性,分类信息可能丢失。设计分类器不仅要保证分类正确率,还要保证其分类性能。特征选择的任务就是:在给定的词组中,选择具有重要分类信息而又能减少特征的词组作为分类文本的特征。特征选择的过程也是特征压缩的过程,如果选择的特征不具有分类识别能力,那么将会设计出得到分类效果很差的分类器。另一方面,如果选择的特征能够很好的保留分类信息,除去那些几乎不能识别类别的词组,将在很大程度上简化分类器的设计。

MP特征选择思想

  对于删除标点符号和停用的词组表示的文本,其中的词组具有不同的类别识别能力。本文提出一种基于矩阵投影(Matrix Projection,MP)运算的特征选择方法。矩阵投影特征选择方法是基于概率模型,综合考虑词组的文档频率以及词组在单个类别下的平均词频进行特征选择。这里的文档频率不是整个训练数据集的文档频率,而是一个词组在摸个类别下的文档频率,即该词组在一个类别下出现的文本数量比上该类别文本总数。词频为一篇文本中某词出现的次数比上该文本的总词数。平均词频是一个词在该类别下每一篇文本中的词频的算术平均。特征提取的过程:对已标注的训练语料,统计词组在类别中的文档频率 ,以及特征项在类别中每一个文档的词频 。通过投影函数计算词组在类别中的矩阵投影结果。根据运算结果的大小进行特征选择,最终选取那些结果值比较大的词组作为分类的特征。

MP特征选择算法

  下面通过定义矩阵投影运算逐步引出MP特征选择过程。首先给出矩阵投影的一般定义如下。
  定义 :矩阵投影:设 A 是一个mxn 的矩阵,即 AmXn=(aij)mXn,矩阵中各元素间相互独立。投影运算过程如图1所示:

图1 矩阵投影运算过程

矩阵 A 通过投影运算得到 1Xn 的矩阵 B 和 的矩阵 C :

矩阵 B 和矩阵 C 称为矩阵 A 的投影。其中矩阵B是矩阵A的垂直投影, φ(a1i,a2i,…,ami) 叫做垂直投影函数;矩阵 C

n many data analysis tasks, one is often confronted with very high dimensional data. Feature selection techniques are designed to find the relevant feature subset of the original features which can facilitate clustering, classification and retrieval. The feature selection problem is essentially a combinatorial optimization problem which is computationally expensive. Traditional feature selection methods address this issue by selecting the top ranked features based on certain scores computed independently for each feature. These approaches neglect the possible correlation between different features and thus can not produce an optimal feature subset. Inspired from the recent developments on manifold learning and L1-regularized models for subset selection, we propose here a new approach, called {\em Multi-Cluster/Class Feature Selection} (MCFS), for feature selection. Specifically, we select those features such that the multi-cluster/class structure of the data can be best preserved. The corresponding optimization problem can be efficiently solved since it only involves a sparse eigen-problem and a L1-regularized least squares problem. It is important to note that MCFS can be applied in superised, unsupervised and semi-supervised cases. If you find these algoirthms useful, we appreciate it very much if you can cite our following works: Papers Deng Cai, Chiyuan Zhang, Xiaofei He, "Unsupervised Feature Selection for Multi-cluster Data", 16th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD'10), July 2010. Bibtex source Xiaofei He, Deng Cai, and Partha Niyogi, "Laplacian Score for Feature Selection", Advances in Neural Information Processing Systems 18 (NIPS'05), Vancouver, Canada, 2005 Bibtex source
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值