一、前言
首先介绍朴素贝叶斯的核心公式:
P A ∣ B ) = P ( A ) P ( B ∣ A ) P ( B ) PA|B) = \frac{
{P(A)P(B|A)}}{
{P(B)}} PA∣B)=P(B)P(A)P(B∣A)

朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。”朴素贝叶斯“之”朴素“之名即来源于其特征条件独立的假设。对于给定的数据集,首先基于特征条件独立假设学习输入输出的联合概率分布,而后基于此模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。具体地,条件独立性假设是:
P ( X = x ∣ Y = c k ) = P ( X ( 1 ) = x ( 1 ) , . . . , X ( n ) = x ( n ) ∣ Y = c k ) = ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c k ) P(X = {\rm{x}}|Y = {c_k}) = P({X^{(1)}} = {x^{(1)}},...,{X^{(n)}} \\= {x^{(n)}}|Y = {c_k}) = \prod\limits_{j = 1}^n {P({X^{(j)}} = {x^{(j)}}|Y = {c_k})} P(X=x∣Y=ck)=P(X(1)=x(1),...,X(n)=x(n)∣Y=ck)=j=1∏nP(X(j)=x(j)∣Y=ck)
二、朴素贝叶斯算法
对于训练数据:
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } , x i = ( x i ( 1 ) , x i ( 2 ) , . . . , x i ( n ) ) T , x i ( j ) ∈ { a j 1 , a j 2 , . . . , a j S j } T = \{ ({x_1},{y_1}),({x_2},{y_2}),...,({x_N},{y_N})\} ,\\{x_i} = {(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T} ,x_i^{(j)} \in \{ {a_{j1}},{a_{j2}},...,{a_{j{S_j}}}\} T={
(x1,y1),(x2,y2),...,(xN,yN)},xi=(xi(1),xi(2),..

本文深入介绍了朴素贝叶斯算法的核心概念,包括贝叶斯定理、特征条件独立假设以及如何计算先验概率和条件概率。通过实例展示了如何在Python中实现离散数据和连续数据的朴素贝叶斯分类,并提供了高斯朴素贝叶斯的代码实现。此外,还讨论了拉普拉斯修正在处理训练集中未出现属性值问题时的作用。
最低0.47元/天 解锁文章
1092

被折叠的 条评论
为什么被折叠?



