朴素贝叶斯分类器
模型评价:
优点:在数据较少的情况下仍然有效,可以处理多类别问题
缺点:对于输入数据的准备方式较为敏感
适用数据类型:标称型数据
贝叶斯决策理论的核心思想:选择具有最高概率的决策
条件概率
计算条件概率的方法
①条件概率计算公式: p(B∣A)=P(AB)P(A)p(B|A) = \frac{P(AB)}{P(A)}p(B∣A)=P(A)P(AB)
②贝叶斯准则:贝叶斯准则告诉我们如何交换条件概率中的条件与结果。
p(ci∣w)=p(w∣ci)p(ci)p(w)p(c_i|w) = \frac{p(w|c_i)p(c_i)}{p(w)}p(ci∣w)=p(w)p(w∣ci)p(ci)
使用条件概率来分类:
如果p(c1∣x,y)>p(c2∣x,y)p(c_1|x, y) > p(c_2|x, y)p(c1∣x,y)>p(c2∣x,y), 那么属于类别c1c_1c1
如果p(c1∣x,y)<p(c2∣x,y)p(c_1|x, y) < p(c_2|x, y)p(c1∣x,y)<p(c2∣x,y), 那么属于类别c2c_2c2
使用贝叶斯准则,可以通过已知的三个概率值来计算未知的概率值。
朴素贝叶斯分类器假设:
①特征之间相互独立。这个假设是朴素贝叶斯分类器中"朴素"(naive)一词的含义
②每个特征同等重要
因为特征之间相互独立,所以,
p(w∣ci)=p(w0∣ci)p(w1∣ci)…p(wN∣ci)p(w|c_i)=p(w_0|c_i)p(w_1|c_i)…p(w_N|c_i)p(w∣ci)=p(w0∣ci)p(w1∣ci)…p(wN∣ci)
所以,
p(ci∣w)=p(ci)∏i=1Np(wi∣ci)p(w)p(c_i|w) = \frac{p(c_i)\prod_{i=1}^{N}p(w_i|c_i)}{p(w)}p(ci∣w)=p(w)p(ci)∏i=1Np(wi∣ci)
因为p(w)是个常数,所以,
p(ci∣w)=∝p(ci)∏i=1Np(wi∣ci)p(c_i|w) = \propto p(c_i)\prod_{i=1}^{N}p(w_i|c_i)p(ci∣w)=∝p(ci)i=1∏Np(wi∣ci)
故,c^=argmaxcP(c)∏i=1NP(wi∣c)\hat{c} = arg \underset{c}{max}P(c)\prod_{i=1}^{N}P(w_i|c)c^=argcmaxP(c)i=1∏NP(wi∣c)
本文深入解析了朴素贝叶斯分类器的工作原理,包括其核心假设、模型评价及适用场景。阐述了条件概率计算方法,以及如何利用贝叶斯准则进行决策。通过实例说明了如何使用条件概率进行分类,特别强调了特征独立性和等权性假设的重要性。
1187

被折叠的 条评论
为什么被折叠?



