《集体智慧编程》第6章 文档过滤 个人笔记

本文介绍了文档过滤中的关键方法,包括朴素贝叶斯分类器的基本原理及其应用,如何通过特征工程提高分类准确性,以及费舍尔方法的具体实现步骤。此外还讨论了在实际应用中如何设置合适的阈值来平衡误报率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第6章 文档过滤

1、前期准备

  • 抽取特征,整一个就是Feature Engineering=。=简单的比如分词统计单词、词组个数,大小写等。
  • 统计特征在各分类中的数量,每个分类中的文档数量。
  • 计算条件概率,为了避免出现有些单词只出现某一类,导致这些单词在其他类中的概率为0,进行一些概率改动。常用的可以用Laplace平滑,这本书提出了加权的概率值。

2、朴素分类器

  • 朴素贝叶斯假设前提:条件概率独立

    P(Category|Document)=P(Document|Category)P(Category)P(Document)

    对于分母,因为每次计算时分母值都一样,所以分母的计算可忽略。

  • 将文档中所有单词的条件概率相乘来表示这篇文档的条件概率。

  • 选择分类:在垃圾信息过滤的例子中,避免将普通邮件当成垃圾邮件要比截获每一封垃圾邮件更为重要。为了解决这一问题,可以为每个分类定义域一个最小阈值,对于一封要被划入到某个分类的新邮件而言,其概率与针对所有其他分类的概率相比,必须大于某个制定的数值才行。

3、费舍尔方法

费舍尔方法将直接计算当一篇文档出现某个特征时,该文档属于某个分类的可能性。进行归一化,然后将所有归一化概率相乘,取自然对数,再将结果乘以-2。最后分类。

4、补充

贝叶斯分类器之所以经常被用于文档分类的原因是与其他方法相比它所要求的计算资源更少,但朴素分类器无法捕获特征之间的相互依赖性,而神经网络可以。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值