使用LIBSVM对原始文本语料进行文本分类(二)——特征选择(信息增益方法)
上一篇文章介绍了文本的预处理需要考虑的一些问题,那关于这一次实验,先在本篇文章的最开始说明,本次特征选择采用的方法是信息增益,而特征权重计算采用的是计算单词的TF-IDF作为权重值。
特征选择——信息增益
特征选择属于一大类问题,常见的特征选择的方法有CHI、WLLR等等吧,反正算法有一堆,这里针对这次实验主要介绍信息增益,以及如何如何计算纯文本语料的特征(单词)的信息增益。
首先什么是信息增益?
开启传送门:http://www.blogjava.net/zhenandaci/archive/2009/03/24/261701.html
上面的文章详细的介绍了信息熵与信息增益,简单来说信息增益表明的是一个特征能够给一个分类系统带来多少的信息量,也就是反映了某个特征对于分类系统的贡献度的大小。
doc-word矩阵 与 word-doc矩阵
在计算信息增益之前,要先讲一下这两个矩阵。
对于文本处理来讲,这两个矩阵应该是肯定要知道的,而且在许多算法中会用到。
顾名思义,这个矩阵反映的是doc(文档)与word(单词)之间的关系,对于计算机来讲,处理数据当然是最方便的,那我们对我们的所有文档中的单词做一个索引,就像下面的格式一样:
1 investors
2 wary
3 notices
4 growing
5 bubble
6 treasury
7 bonds
8 writes
9 martin
10 hutchinson
11 contributing
12 editor
13 money
14 morning
15 yield
16 year
这里就是相当于做了一个词典,也就是所有的文档中每一单词对应的索引,这个很容易实现,接下来我们就用这个单词对应的数字来代表这个单词来创建矩阵。
那具体矩阵应该是怎样的呢?其实很简单,所谓doc-word便是文档的每一行都代表一个doc,而每一行的组成是这个doc所对应的内容的每个单词的按照顺序的索引,用词典翻译过来就可以对应原文。(下面的就是我随便编的一个例子,实际文档中没有//doc1这种内容的)
//doc1
...
//doc10
12 16 41 43 47 65 ...
//doc11
54 76 54 89 32 42 ...
...
拿我自己这次实验的截图来讲就是如下:
同理,所谓word-doc所展示的就是每一个单词在每一个文档中出现的次数。
就比如说有这么三个文档吧(忽略语法什么的=。=):
doc1:I feel bad
doc2 : I feel not so bad
doc3 : I feel so so bad
那我们index做成如下:
1 I
2 feel
3 bad
4 not
5 so
所以照应上面,doc -word矩阵应该是:
1 2 3
1 2 4 5 3
1 2 5 5 3
而word-doc矩阵应该是:
doc 1 2 3
1 1 1 1
2 1 1 1
3 1 1 1
4 0 1 0
5 0 1 2
至于有的童鞋可能会有疑问上面那个类似表格的边框有木有,实际应用时是不需要的,这里是为了让大家更容易理解才这么画的。
当然了,两者之间互相转化,其实动动脑可以知道doc-word转化为word-doc是可以的,但是这个是不可逆的——因为word-doc中没有考虑文档中单词出现的顺序,但是计算信息增益显然不需要词序这种东西,所以利用word-doc计算信息增益还是比较方便的。
下面把doc-word矩阵转化为word-doc矩阵的代码贴出来,这个还是比较简单,很容易实现的:
package featureselect;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
public class Docword2Worddoc {
//定义文档总数
public static final int docnumber = 2330;
public static final int wordnumber = 40805;
public static void main (String[] args) throws IOException{
//在后面追加的文件
FileWriter fw = new FileWriter("D:\\IG-2\\word-doc.txt",true);
//写个表头
fw.write(