朴素贝叶斯分类法的概率学习
1. 朴素贝叶斯概述
在大多数情况下,即使朴素贝叶斯的假设条件不成立,其表现依然良好。即便特征之间存在强依赖关系的极端情况下,它也能有不错的效果。由于该算法在多种条件下都具有通用性和准确性,因此在分类学习任务中,它常常是首选的算法。
虽然朴素贝叶斯的假设存在缺陷,但它仍能良好工作的具体原因尚无定论。一种解释是,只要预测准确,精确估计概率并不重要。例如,对于一个垃圾邮件过滤器,如果它能正确识别垃圾邮件,那么它对预测的置信度是 51% 还是 99% 其实并不重要。
2. 朴素贝叶斯分类
以扩展垃圾邮件过滤器为例,除了监测“Viagra”这个词外,还增加了“Money”、“Groceries”和“Unsubscribe”这几个词。通过为这四个词(标记为 W1、W2、W3 和 W4)的出现构建一个似然表来训练朴素贝叶斯学习器。
当收到新消息时,需要根据消息文本中出现的词的似然性,计算后验概率,以确定消息更可能是垃圾邮件(spam)还是正常邮件(ham)。例如,假设一条消息包含“Viagra”和“Unsubscribe”,但不包含“Money”和“Groceries”。
使用贝叶斯定理,可以用以下公式来定义问题,该公式表示在“Viagra = Yes”、“Money = No”、“Groceries = No”和“Unsubscribe = Yes”的条件下,消息是垃圾邮件的概率:
由于多种原因,这个公式在计算上比较困难。随着特征的增加,需要大量的内存来存储所有可能的交叉事件的概率。例如,想象一下四个词的事件的维恩图的复杂性,更不用说数百个或更多词的情况了。
超级会员免费看
订阅专栏 解锁全文
2286

被折叠的 条评论
为什么被折叠?



