概率学习 - 使用朴素贝叶斯进行分类
1. 朴素贝叶斯的性能与原理
在大多数情况下,即使朴素贝叶斯的假设条件不成立,它仍然能有不错的表现,甚至在特征间存在强依赖关系的极端情况下也是如此。由于该算法在多种条件下具有通用性和准确性,因此它常是分类学习任务的首选算法。
朴素贝叶斯在假设条件有误的情况下仍能表现良好的具体原因有很多猜测。一种解释是,只要预测准确,精确估计概率并不重要。例如,对于一个垃圾邮件过滤器,如果它能正确识别出垃圾邮件,那么它的预测置信度是 51% 还是 99% 其实并不重要。
2. 朴素贝叶斯分类
假设我们要扩展垃圾邮件过滤器,除了监控“Viagra”这个词外,还增加“Money”、“Groceries”和“Unsubscribe”这几个词。通过为这四个词(标记为 W1、W2、W3 和 W4)的出现情况构建一个似然表来训练朴素贝叶斯学习器。
当收到新消息时,我们需要计算后验概率,以根据消息文本中出现的词的可能性来确定消息更可能是垃圾邮件(spam)还是正常邮件(ham)。例如,假设一条消息包含“Viagra”和“Unsubscribe”,但不包含“Money”和“Groceries”。
使用贝叶斯定理,我们可以将问题定义为以下公式,用于计算在“Viagra = Yes”、“Money = No”、“Groceries = No”和“Unsubscribe = Yes”的条件下,消息是垃圾邮件的概率:
由于多种原因,这个公式在计算上比较困难。随着特征的增加,需要大量的内存来存储所有可能的交叉事件的概率。
不过,如果我们利用朴素贝叶斯假设事件之间相互独立这一特点,工作
超级会员免费看
订阅专栏 解锁全文
4804

被折叠的 条评论
为什么被折叠?



