文本分类中的特征选择

面试中被问到的一个问题,如何对文本划分类别?我提出用bag of words进行分类,但是词汇的数量比较大,特征维度比较高,涉及到特征选择的问题,我的回答是用图像中常见的LDA,PCA特征降维,但是翻看NLP相关的文献才知道一般是采用互信息,卡方统计量和词频分析。

互信息与信息增益是等价的。
把文档分成体育、游戏、娱乐这三类的例子中,如果一个单词在三类文档中出现的概率相同,那么这个单词对分类无意义,文档分类应该选择的单词是在三类文档中出现的概率有显著差异的,这样的特征能为文档的类别提供有用的信息。度量特征对分类提供的信息,最常见的是熵, 在没有任何先验信息的情况下,文档属于三个类别的概率是相同的,此时,文档类别C的熵也即不确定度是最高的,统计单词W(如football)在文档中的词频,计算文档类别的后验概率分布P(C|W),如果W在不同文档中出现的频率有显著差异,P(C|W)的分布会非常不均匀,信息熵会显著降低。

信息增益定义为原始信息熵与条件熵之间的差,IG(C,W)=H(C)-H(C|W),按熵的定义进行展开,能得到互信息的计算公式。根据信息增益可以选择对分类划分带来信息量最大的K个单词。如果仅考虑单词对某一类文档(体育)的判别是否有信息量,可以简化成两类问题,体育类和非体育类,计算方法是相同的。

卡方检验是统计学中常用来检测两个变量独立性的方法,常用于离散变量的独立性的分析。
考虑这样一个简单的例子,在一个样本数为50的人群中对不同性格(外向、内向)的人对颜色的颜色(红、黄、蓝)的偏好进行统计,结果如下。
蓝色 红色 黄色
外向 5 20 5
内向 10 5 5

分析人的性格与颜色的偏好是否独立,采用的就是卡方检验。
自由度为(3-1)*(2-1)=2; 其中3是颜色偏好的数量, 2是性格种类数量
假设H0是 性格与颜色偏好是独立的,
备择假设H1 两者不独立
在置信度为0.05时,通过查表可知拒绝假设H0的卡方值是5.99,超过5.99则认为两者不独立

卡方度量的是期望值E与观察值O之间的偏离程度
蓝色 红色 黄色
外向 5 20 5 30
内向 10 5 5 20
15 25 10
如果独立外向且偏好蓝色的人数应该是 (30/50)*(15/50)*50= 9
按相似的方法,可以算出期望的颜色-性格分布情况如下:
蓝色 红色 黄色
外向 9 15 6
内向 6 10 4

卡方值=sum((fo-fe)^2/fe)
=(9-5)^2/ 9 + ((20-15)^2/15 + (6-5)^2/6 +(10-6)^2/6 + (10-5)^2/10 +(5-4)^2/4 =9.03 > 5.99
因此,可以认为个性与颜色相关是不独立的。

在文本分类的特征选择中,也一样可以利用卡方检验判断单词的词频与文档类别的相关程度,卡方度量越大,说明单词与该类别越相关。

在文本分类中采用信息增益与卡方检验的主要原因是词汇总量比较大,如果采用pca等方法一般是多项式时间,同时会有一个庞大的文档-词项关联矩阵要存储,时间和空间复杂度比较高。采用信息增益或卡方检验的方法虽然是贪心的策略,但是复杂度明显会低很多。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值