简单的例子:
判断周杰伦手中的硬币是几毛钱,根据个人的经验,会给出这个事件一个经验判断-称之为先验概率,例如P(一角)=0.4,P(五角)=0.6,那么我们会猜测周杰伦手中的硬币是5角钱的.
如果允许对硬币进行测量重量(仍然不知道物体具体类别,可以增添某些提示信息),当我们知道重量为0.5g的时候为一角钱和五角钱的概率如下P(一角|0.5g)=0.1, P(五角|0.5g)=0.9,那么我们就可以通过增添的一个信息量,把我们误判率限定在0.1.
既然增添了一个信息提示会使得我们的信息增益这么大,那么我们就应该采用这种方法去进行计算,接下来的问题就是这个后验概率如何去算:
其中,P(wi)是先验概率,P(x|wi)成为类条件密度,就是当我们需要对所有五毛钱测每一个重量,看一下重量为x的概率为多少.p(x)是两类硬币重量为x的概率密度之和.
Notations:
假设样本是由d维实数特征组成的,即
,其中T第是转置符号.
假定要研究的类别有c个,记作,类别数c已知,且各类的先验概率也都已知.另外,还假定各类中的样本的分布密度即类条件密度P(x|wi)是已知的,我们所要做的决策就是,对于某个位置样本x,判断它属于哪一类.
如此定义了一个服从同样分布的独立样本上错误率的期望:
如何理解这个公式,首先这个公式是一个分段函数,e取w1或者w2,当e取w1的时候,就是x在w2空间中对这个式子进行积分,得到的是错误的被分到w1中的概率.当计算这个错误率最小的时候考虑因为P(x)是不变的,那么就使得P(e|x)最小即可,也即正确分类最大.
最小错误率贝叶斯决策:
决策规则:
如果P(w1|x)>P(w2|x),那么x属于第一类w1
先验概率P(wi)和类条件密度p(x|wi),i=1,2都已知
P16 书中的例子:细胞类别状态的例子很好
最小风险贝叶斯决策:
关心错误率所带来的损失,把正常细胞误判为癌细胞,会给病人带来精神上的负担和不必要的进一步检查,这是一种损失;反之,如果把癌细胞误判为正常细胞,则损失更大,因为这可能会导致病人丧失了宝贵的早期发现癌症的机会,可能会造成影响病人生命的严重后果.最小风险贝叶斯决策就是考虑各种错误造成的损失
Notations:
i).把样本x看做d维随即向量x=[x1,x2,...,xd]^{T}
ii).状态空间由c个可能的状态组成:
iii).对随机变量x可能采取的决策组成了决策空间,它由k个决策组成: ,这里没有假定k=c,这是更一般的情况,比如除了判别为某一类外,对某些样本还可以做出决策,即不能判断属于任何一类;有时也可以在决策时把几类合并为同一大类.
iv).设对于实际状态为w_{j}的向量x,采取决策\alpha_{i}所带来的损失为:
然后根据这个公式给出损失函数的一般决策表
对于某个样本x,它属于各个状态的后验概率是P(wj|x),对它采取决策 的期望损失为:
最小风险贝叶斯决策过程:
1.利用贝叶斯公式计算后验概率:p(wj|x) j=1,...,c (注意,与最小错误率贝叶斯决策一样,这里仍然要求先验概率和类条件概率已知)
2.利用决策表,计算条件风险:
3.决策:在各种决策中选择风险最小的决策:
注意:
最小风险风险贝叶斯决策中的决策表是需要人为确定的,决策表不同会导致决策结果的不同
两类错误率 经常在论文中会看到-灵敏度Sn和特异度Sp
真阳性和真阴性都是正确的分类,错误的分类有假阳性和假阴性两种情况,假阳性(实际状态是阴性但是错分到阳性),假阴性(实际状态是阳性但是错分阴性)
假阳性率:是假阳性数据占所有阴性样本的比率
假阴性率:是所有假阴性数据占所有阳性样本的比率
用TP TN FP FN 分别代表某次实验中的真阳性,真阴性,假阳性,假阴性样本的个数,灵敏度Sn和特异度Sp的定义分别为:
表示真正的阳性样本中有多少比例能被正确的检测出来
表示真正的阴性样本中有多少比例能够被正确的检测出来
一种诊断方法的灵敏度高指的是他能把所有有病的人都诊断出来,而特异性高则表示它不易把无病的人误诊为有病.
灵敏度和特异性是一对矛盾,如果某种方法把所有检查的人都说成有病,那么不会错过任何一个真正的病人,灵敏度为100%,但是把所有健康人也误诊为病人;相反的,如果他把所有人都检查为无病,那么他自然不会误诊,特异性为100%,但却把真正的病人漏诊了.我们需要根据疾病的具体情况在两种极端之间取得平衡,