7.1 贝叶斯决策论
对于分类任务,贝叶斯决策论是在所有相关概率都已知的理想情形下,考虑如何基于概率和误判损失来选择最优的类别标记。
假设有N种可能的类别标记,即Y={
c1,c2,...,cN}Y=\{c_1,c_2,...,c_N\}Y={
c1,c2,...,cN},λij\lambda_{ij}λij是将一个真实标记为cjc_jcj的样本误分类为cic_ici所产生的损失,那么我们可以基于后验概率来刻画把xxx分类为cic_ici损失期望
R(ci∣x)=∑j=1NλijP(cj∣x)R(c_i|x)=\sum_{j=1}^N\lambda_{ij}P(c_j|x)R(ci∣x)=j=1∑NλijP(cj∣x)
我们的任务是寻找一个判定准则hhh,来最小化风险
R(h)=Ex[R(h(x)∣x)].R(h)=\mathbb{E}_x[R(h(x)|x)].R(h)=Ex[R(h(x)∣x)].
贝叶斯判定准则:为了最小化总体风险,只需要在每个样本上选择能使条件风险R(c∣x)R(c|x)R(c∣x)最小的类别标记,即
h∗(x)=argminc∈yR(c∣x)h^*(x)=\mathop{\arg\min}\limits_{c\in y} R(c|x)h∗(x)=c∈yargminR(c∣x)
此时,我们把h∗h^*h∗称为贝叶斯最优分类器,与之对应的,我们称R(h∗)R(h^*)R(h∗)为贝叶斯风险,1−R(h∗)1-R(h^*)1−R(h∗)反映了分类器能达到的最好性能。
如果我们额目标是最小化分类错误率,那么误判损失λij\lambda_{ij}λij可写为
λ=1−I(i,j)\lambda=1-\mathbb{I}(i,j)λ=1−I(i,j)
那么这个时候的条件风险就可以表示为
R(c∣x)=1−p(c∣x)R(c|x)=1-p(c|x)R(c∣x)=1−p(c∣x)
最优分类器就等价于
h∗(x)=argmaxc∈yP(c∣x)h^*(x)=\mathop{\arg\max}\limits_{c\in y} P(c|x)h∗(x)=c∈yargmaxP(c∣x)
这里给出生成式模型与判别式模型的概念。
所谓生成式模型,指的是先对P(c,x)P(c,x)P(c,x)进行建模,然后再得到P(c∣x)P(c|x)P(c∣x);而判别式模型则是直接对P(c∣x)P(c|x)P(c∣x)进行建模,如我们前边介绍的决策树、SVM等。
对于生成式模型,由贝叶斯公式
P(c∣x)=P(c)P(x∣c)P(x)=P(c,x)P(x)P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c,x)}{P(x)}P(c∣x)=P(x)P(c)P(x∣c)=P(x)P(c,x)
注意P(x)P(x)P(x)