朴素贝叶斯算法:原理、应用与实现
1. 朴素贝叶斯算法概述
商业垃圾邮件过滤器的工作原理与我们接下来要介绍的方法类似,只不过在计算频率和可能性表格时,它们会同时考虑更多的单词。朴素贝叶斯算法是一种将贝叶斯定理应用于分类问题的简单方法,虽然它不是唯一使用贝叶斯方法的机器学习算法,但却是最常用的一种。它在文本分类领域取得了巨大成功,一度成为事实上的标准。
1.1 朴素贝叶斯算法的优缺点
| 优点 | 缺点 |
|---|---|
| - 简单、快速且非常有效 - 能很好地处理有噪声、缺失的数据以及大量特征 - 训练所需的示例相对较少 - 易于获得预测的估计概率 |
- 依赖于特征同等重要且相互独立这一常出错的假设 - 对于包含许多数值特征的数据集不太理想 - 估计的概率不如预测的类别可靠 |
朴素贝叶斯算法之所以被称为“朴素”,是因为它对数据做了一些所谓的“朴素”假设。具体来说,它假设数据集中的所有特征都是同等重要且相互独立的。然而,在大多数实际应用中,这些假设很少成立。例如,在通过监控电子邮件消息来识别垃圾邮件时,某些特征显然比其他特征更重要,邮件发件人可能比邮件文本更能指示是否为垃圾邮件。此外,邮件正文中的单词并非相互独立,某些单词的出现往往意味着其他单词也可能出现,比如包含“Viagra”的邮件很可能也包含“prescription”或“drugs”。
尽管存在这些有问
超级会员免费看
订阅专栏 解锁全文
1879

被折叠的 条评论
为什么被折叠?



