1.从误判损失理解条件概率:
λij是将一个真实标记为cj误判为ci所产生的损失,P(ci|x)为样本x的类别标记为ci的后验概率,可得基于后验概率将样本x分类为ci的期望损失,也就是样本x的“条件风险”
R(Ci|X)=∑j=0NλijP(cj|x)
最小化分类错误率,误判损失λij可以写作:
λij={01if i=jotherwise
则条件风险可写作:
R(c|x)=1−P(c|x)
理解:R(c|x)=1−P(c|x)为整体概率1减去x的类别真实为1的概率
2.似然(类条件概率)
P(x|c)样本x相对于类标记c的类条件概率
3贝叶斯分类器
1)最优贝叶斯分类器
h∗(x)=argminc∈yR(c|x)=argmaxc∈yP(c|x)
2)朴素贝叶斯分类器(naive Bayes Classifiers)
动机:避免基于贝叶斯公式估计后验概率 P(c|x) 的困难,由于类条件概率是所有属性上的联合概率,难从有限的样本直接得到
理解:假设对西瓜进行分类,类别标记为(c1,c2)=(好瓜,坏瓜),则属性d=(色泽、纹理、声音、藤蔓...),欲求P(x|c1)的似然,是对属性d的联合概率分布
应对:采用属性条件独立性假设
d为属性数目,xi为样本x在属性i上的取值