第四章 朴素贝叶斯法
概述
基本思想:对于给定的数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布,然后基于此模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。
特点:实现简单;学习和预测的效率都很高;很常用。
4.1 朴素贝叶斯法的学习与分类
给定数据集
学习目标:学习联合概率分布。
几个概念:
1.先验概率分布:
2.后验概率
学习到的联合概率分布。
4.2 朴素贝叶斯法的参数估计
极大似然估计
先验概率
P(Y=ck)
P
(
Y
=
c
k
)
的极大似然估计:
条件概率 P(X(j)=x(j)|Y=ck) P ( X ( j ) = x ( j ) | Y = c k ) 的极大似然估计是:
j=1,2,…,n;l=1,2,…,S;k=1,2,…,K
式中, x(j)i x i ( j ) 是第i个样本的第j个特征, ajl a j l 是第j个特征可能取的第l个值;I为指示函数
学习与分类算法
算法4.1(朴素贝叶斯算法)
(1)计算先验概率及条件概率
(2)对于给定的实例
x=(x(1),x(2),⋯,x(n))T
x
=
(
x
(
1
)
,
x
(
2
)
,
⋯
,
x
(
n
)
)
T
,计算
(3)确定实例x的类
贝叶斯估计
条件概率的贝叶斯估计:
先验概率的贝叶斯估计为:
式中, λ≥0 λ ≥ 0 ;当 λ=0 λ = 0 时就是极大似然估计,常取 λ=1 λ = 1 ,这是称为拉普拉斯平滑