机器学习(一)贝叶斯判别式
2018/2/13
by Chenjing Ding
符号 | 含义 |
---|---|
CkCk | 第k类 |
p | 概率密度 |
P(Ck)P(Ck) | 第k类的概率。本文中的概率密度和概率在公式推导时已严格区分 |
x | 输入数据;可为训练样本(已知类别)或者待分类数据(未知类别),为变量 |
输入数据,有固定取值,非变量 | |
m | 类型总数 |
一.三个基本概率
1.1先验概率
根据经验得到的概率。比如:第k类的先验概率
1.2条件概率
P(x|Ck)P(x|Ck): 在第k类中产生观察到的数据x的概率,表示了x是由第k类产生的可能性。
1.3后验概率
P(Ck|x)P(Ck|x):输入数据x是第k类的概率。
1.4 三者关系
其中x是连续随机变量,注意P(x)=0P(x)=0;表达式中采用的是概率密度函数。
CC是离散随机变量,表达式中采用的是概率。
-具体参考Christopher M. Bishop,Pattern Recognition and Machine Learning,Springer, 2006 1.2.1节。
-在第二节4.3生成模型和判别模型的比较中再来比较条件概率和后验概率。
二.贝叶斯判别式最佳决策准测的推导
目标函数:
使错分输入数据x的概率最小。
已知决策准测x0x0, 当x<x0x<x0,即x∈R1x∈R1,贝叶斯决策认为x属于C1C1类,反之则为$C_2类。
观察上图,当决策准则为xˆx^,P(mistake)是红色,绿色和蓝色的面积和。当决策准则为x0x0,P(mistake)是绿色和蓝色的面积和。要使P(mistake)的概率最小,应使红色面积部分最小。当p(x,C1)=p(x,C2)p(x,C1)=p(x,C2)时,红色部分面积为0;即分界线为 {x| p(x,C1)=p(x,C2)}{x| p(x,C1)=p(x,C2)} 。
最佳决策准测:
根据上述分界线,当P(C1|x)∗p(x)>P(C2|x)∗p(x)P(C1|x)∗p(x)>P(C2|x)∗p(x),贝叶斯决策将x分为C1C1类;
即:p(x|C1)∗P(C1)>p(x|C2)∗P(C2)p(x|C1)∗P(C1)>p(x|C2)∗P(C2)
三.损失函数在贝叶斯判别式中的的应用
3.1贝叶斯决策损失函数的定义
Lkj(0<k,j<=m)Lkj(0<k,j<=m): 如果x被分类到第j类,而其实x是第k类的损失值。损失矩阵就是由这些损失值构成的矩阵。
3.2带损失函数的最佳决策准测
3.2.1 损失函数的期望
条件损失函数期望:
R(aj|q):R(aj|q):对于一个特定的q输入,采取决策ajaj的损失期望,也叫做条件风险。
损失期望:
R:对于所有决策总的损失期望。
3.2.2 目标函数
对于给定输入q,选择条件风险最小的决策,可使总的损失期望最小。
以两类为例:
假设有两个类C1,C2C1,C2,有两个决策a1,a2a1,a2。损失函数L(aj|Ck)=LkjL(aj|Ck)=Lkj。
如果R(a2|x)>R(a1|x)R(a2|x)>R(a1|x),选择a1。