第6章 文档过滤
1、前期准备
- 抽取特征,整一个就是Feature Engineering=。=简单的比如分词统计单词、词组个数,大小写等。
- 统计特征在各分类中的数量,每个分类中的文档数量。
- 计算条件概率,为了避免出现有些单词只出现某一类,导致这些单词在其他类中的概率为0,进行一些概率改动。常用的可以用Laplace平滑,这本书提出了加权的概率值。
2、朴素分类器
朴素贝叶斯假设前提:条件概率独立
P(Category|Document)=P(Document|Category)∗P(Category)P(Document)对于分母,因为每次计算时分母值都一样,所以分母的计算可忽略。
将文档中所有单词的条件概率相乘来表示这篇文档的条件概率。
- 选择分类:在垃圾信息过滤的例子中,避免将普通邮件当成垃圾邮件要比截获每一封垃圾邮件更为重要。为了解决这一问题,可以为每个分类定义域一个最小阈值,对于一封要被划入到某个分类的新邮件而言,其概率与针对所有其他分类的概率相比,必须大于某个制定的数值才行。
3、费舍尔方法
费舍尔方法将直接计算当一篇文档出现某个特征时,该文档属于某个分类的可能性。进行归一化,然后将所有归一化概率相乘,取自然对数,再将结果乘以-2。最后分类。
4、补充
贝叶斯分类器之所以经常被用于文档分类的原因是与其他方法相比它所要求的计算资源更少,但朴素分类器无法捕获特征之间的相互依赖性,而神经网络可以。