使用LIBSVM对原始文本语料进行文本分类(二)——特征选择(信息增益方法)

本文探讨了在使用LIBSVM进行文本分类时,如何通过信息增益进行特征选择。文章详细解释了信息增益的概念,强调了它在评估特征对分类系统贡献度上的作用。同时,介绍了doc-word矩阵和word-doc矩阵在文本处理中的重要性,以及如何进行这两种矩阵的转换。代码示例展示了如何从doc-word矩阵生成word-doc矩阵,为计算信息增益奠定了基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用LIBSVM对原始文本语料进行文本分类(二)——特征选择(信息增益方法)

上一篇文章介绍了文本的预处理需要考虑的一些问题,那关于这一次实验,先在本篇文章的最开始说明,本次特征选择采用的方法是信息增益,而特征权重计算采用的是计算单词的TF-IDF作为权重值。

特征选择——信息增益

特征选择属于一大类问题,常见的特征选择的方法有CHI、WLLR等等吧,反正算法有一堆,这里针对这次实验主要介绍信息增益,以及如何如何计算纯文本语料的特征(单词)的信息增益。

首先什么是信息增益?

开启传送门:http://www.blogjava.net/zhenandaci/archive/2009/03/24/261701.html
上面的文章详细的介绍了信息熵与信息增益,简单来说信息增益表明的是一个特征能够给一个分类系统带来多少的信息量,也就是反映了某个特征对于分类系统的贡献度的大小。

doc-word矩阵 与 word-doc矩阵

在计算信息增益之前,要先讲一下这两个矩阵。
对于文本处理来讲,这两个矩阵应该是肯定要知道的,而且在许多算法中会用到。

顾名思义,这个矩阵反映的是doc(文档)与word(单词)之间的关系,对于计算机来讲,处理数据当然是最方便的,那我们对我们的所有文档中的单词做一个索引,就像下面的格式一样:

1   investors
2   wary
3   notices
4   growing
5   bubble
6   treasury
7   bonds
8   writes
9   martin
10  hutchinson
11  contributing
12  editor
13  money
14  morning
15  yield
16  year

这里就是相当于做了一个词典,也就是所有的文档中每一单词对应的索引,这个很容易实现,接下来我们就用这个单词对应的数字来代表这个单词来创建矩阵。

那具体矩阵应该是怎样的呢?其实很简单,所谓doc-word便是文档的每一行都代表一个doc,而每一行的组成是这个doc所对应的内容的每个单词的按照顺序的索引,用词典翻译过来就可以对应原文。(下面的就是我随便编的一个例子,实际文档中没有//doc1这种内容的)

//doc1
...
//doc10
12 16 41 43 47 65 ...
//doc11
54 76 54 89 32 42 ...
...

拿我自己这次实验的截图来讲就是如下:
这里写图片描述

同理,所谓word-doc所展示的就是每一个单词在每一个文档中出现的次数。
就比如说有这么三个文档吧(忽略语法什么的=。=):
doc1:I feel bad
doc2 : I feel not so bad
doc3 : I feel so so bad

那我们index做成如下:

1   I
2   feel
3   bad
4   not
5   so

所以照应上面,doc -word矩阵应该是:

1 2 3
1 2 4 5 3
1 2 5 5 3

而word-doc矩阵应该是:

doc 1 2 3
1   1 1 1
2   1 1 1
3   1 1 1
4   0 1 0
5   0 1 2

至于有的童鞋可能会有疑问上面那个类似表格的边框有木有,实际应用时是不需要的,这里是为了让大家更容易理解才这么画的。

当然了,两者之间互相转化,其实动动脑可以知道doc-word转化为word-doc是可以的,但是这个是不可逆的——因为word-doc中没有考虑文档中单词出现的顺序,但是计算信息增益显然不需要词序这种东西,所以利用word-doc计算信息增益还是比较方便的。

下面把doc-word矩阵转化为word-doc矩阵的代码贴出来,这个还是比较简单,很容易实现的:

package featureselect;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;

public class Docword2Worddoc {
   
   
    //定义文档总数
    public static final int docnumber = 2330;
    public static final int wordnumber = 40805;


    public static void main (String[] args) throws IOException{
        //在后面追加的文件
        FileWriter fw = new FileWriter("D:\\IG-2\\word-doc.txt",true);
        //写个表头
        fw.write(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值