
特征选择
monsion
这个作者很懒,什么都没留下…
展开
-
文本分类程序的实现过程(C++语言)——特征选择的预处理
近几天在看一个文本分类的程序,写一下具体的实现过程。有的时候看了算法,感觉很明白了,但是自己实现的时候却又无从下手。这次从一个实际程序出发,或许能够更好的理解。 首先是训练数据集和测试数据集。每个文档一行, 主要包括 1asdfghasdfghjkl等项目。届时程序会按行读取,每行读一个文档。 特征选择分以下几个步骤: 1.设置特征向量的维数:一般以3000为佳; 2.对训练数据做原创 2012-09-15 20:35:56 · 3540 阅读 · 3 评论 -
文本分类的特征选择方法之信息增益
做特征选择,目的就是选出对分类最有帮助的特征项。但是交给计算机去处理的话,需要量化。因此如何选出这最有帮助的,就出现了种种方法。 一般来说,选择特征在3000的时候,总体效益是很不错的,再往上涨,占用空间增大,但是结果增长并不明显。 信息增益:它依据某特征项ti为整个分类所能提供的信息量多少来衡量该特征项的重要程度,从而决定对该特征项的取舍。 某个特征项ti的信息增益是指有该特征或没有该特征原创 2012-09-15 19:28:00 · 7509 阅读 · 1 评论 -
Bag of words模型
原文链接:http://blog.youkuaiyun.com/pennyliang/article/details/4325664 Bag of words,也叫做“词袋”,在信息检索中,Bag of words model假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说当这转载 2013-01-11 15:02:04 · 1457 阅读 · 0 评论