常用分类问题的算法-朴素贝叶斯分类器(Naive Bayes Classifiers)

本文介绍了朴素贝叶斯分类器的基本原理,包括其核心思想和计算公式,强调了特征独立性的假设及其对模型的影响。讨论了高斯贝叶斯、多项式贝叶斯和伯努利分布贝叶斯三种变体,并提出了使用朴素贝叶斯时应注意的数据预处理和参数调整技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

朴素贝叶斯分类器是分类算法集合中基于贝叶斯理论的一种算法。它不是单一存在的,而是一个算法家族,在这个算法家族中它们都有共同的规则。例如每个被分类的特征对与其他的特征对都是相互独立的。

朴素贝叶斯分类器的核心思想是:
1、将所有特征的取值看成已经发生的事件
2、将因变量属于某个分类也看成所有特征出现条件下的概率事件去判断。将分类问题转换为计算Xi出现的情况下 Yi 发生的概率(即为 P(Yi|Xi))。
3、在假设特征变量之间均独立的前提下,根据概率论的知识, 计算Yi 在 Xi发生时的条件概率 为 Xi和Yi同时发生的概率除以 Xi独立概率。即 P(Yi|Xi)=P(Xi|Yi)*P(Yi)/P(Xi)

朴素贝叶斯的难点和误差来源:

1、所有特征必须是分类变量
2、需要知道每个特征(X)的独立发生概率、因变量(Y)独立发生的概率和因变量发生的情况下,每个特征发生的概率。
3、需要非常有代表性的数据,尽量减少 X 的分布,Y的分布,X|Y 条件分布的误差。
4、特征之间独立性的假设,造成模型误差

基本朴素贝叶斯的变体:

1、高斯贝叶斯(GaussianNB):
将连续特征假设为高斯分布(正态分布)进行概率计算。
所以高斯贝叶斯需要连续特征符合高斯分布。

2、多项式贝叶斯(MultinomialNB):先验为高斯分布的朴素贝叶斯,用于多类型的离散变量。转换为数字即可,不需要dummy处理。

3、伯努利分布贝叶斯(BernoulliNB):先验为伯努利分布的朴素贝叶斯,用于0,1变量的离散变量。转换为数字即可。

2、条件概率的计算方法的变体(m估计法)

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值