注意:贝叶斯分类规则是基于统计概念的,如果只有少数模式样本,一般较难获得最优的结果
正态分布模式的贝叶斯分类器
具有M种模式类别的多变量正态类密度函数为:
其中,每一类模式的分布密度都完全被其均值向量mi和协方差矩阵Ci所规定,其定义为:
Ei{x}表示对类别属于ωi的模型的数学期望。
在上述公式中,n为模式向量的维数,|Ci|为矩阵Ci的行列式,协方差矩阵Ci是对称的正定矩阵,其对角线上的元素Ckk是模式向量第k个元素的方差,非对角线上的元素Cjk是x的第j个分量xj和第k个分量xk的协方差。当xj和xk统计独立时,Cjk=0。当协方差矩阵的全部非对角线上的元素都为零时,多变量正态类密度函数可简化为n个单变量正态类密度函数的乘积。
已知类别ωi的判别函数可写成如下形式:
对于正态密度函数,可取自然对数的形式以方便计算(因为自然对数是单调递增的,取对数后不影响相应的分类性能),则有:
代入正态类密度函数,有:
去掉与i无关的项(并不影响分类结果),有:
即为正态分布模式的贝叶斯判别函数。
两类问题且其类模式都是正态分布的特殊情况
当C1≠C2时的情况,显然,判别界面d1(x)- d2(x)=0是x的二次型方程,即ω1和ω2两类模式可用二次判别界面分开。
当x是二维模式时,判别界面为二次曲线,如椭圆,圆,抛物线或双曲线等。
当C1=C2 =C时的情况
判别界面为x的线性函数,为一超平面。
当x是二维时,判别界面为一直线。
(1)当
(2)当C1=C2=C时,有:
两类问题且其类模式都是正态分布的实例
模式分布如图所示,若作为正态分布处理,且P(ω1)=P(ω2)=1/2,求其判别界面。
模式的均值向量mi和协方差矩阵Ci可用下式估计:
其中N其中Ni为类别为类别ωi中模式的数目,x中模式的数目,xij代表在第i个类别中的第j个模式。由上式可求出:
代表在第i个类别中的第j个模式。
因P(ω1)=P(ω2)=1/2,因C1=C2,则判别界面为: