贝叶斯决策规则(1)

贝叶斯决策规则(1)

符号标记

ω\omegaω:类别标记随机变量,ω1,ω2\omega_1,\omega_2ω1,ω2分别表示类别标记为1,2。

xxx:与决策相关特征值。

p(ω1),p(ω2)p(\omega_1),p(\omega_2)p(ω1),p(ω2):两个类别的先验概率。

p(x∣ω1)p(x|\omega_1)p(xω1):类别为1时,特征取值为xxx的概率。

p(ω1∣x)p(\omega_1|x)p(ω1x):特征取值为xxx,类别为1的概率。

贝叶斯公式

p(ωj∣x)=p(x∣ωj).p(ωj)p(x)p(x)=∑j=12p(x∣ωj)p(ωj)posterior=likelihood×priorevidence p(\omega_j|x)=\frac{p(x|\omega_j).p(\omega_j)}{p(x)} \\ p(x) = \sum_{j=1}^2 p(x|\omega_j)p(\omega_j) \\ posterior = \frac{likelihood\times prior}{evidence} p(ωjx)=p(x)p(xωj).p(ωj)p(x)=j=12p(xωj)p(ωj)posterior=evidencelikelihood×prior

我的理解p(ω1∣x)>p(ω2∣x)p(\omega_1|x) > p(\omega_2|x)p(ω1x)>p(ω2x)时选择ω1\omega_1ω1。在贝叶斯公式里p(x)p(x)p(x)是用来归一化的,并不影响决策结果。真正影响决策结果的是p(x∣ωj)p(x|\omega_j)p(xωj)以及p(ωj)p(\omega_j)p(ωj),前者称之为似然概率,后者称之为先验概率。可以说是这两者共同决定了判决结果。当类别状态等可能出现时,即p(ω1)=p(ω2)p(\omega_1)=p(\omega_2)p(ω1)=p(ω2)时,决定判决结果的是似然概率;而当似然概率相同时,判决则取决于先验概率。我觉得似然概率可以理解成现实生活中我们观察统计到的概率,既然被我们观察到了,那么这就是合理的,自然可以用来影响最后的判决。而先验概率是先验知识,本身表示了各个类别状态出现的概率,自然也能影响最后的判决结果。

虽然我们在判决时选择了概率较大的类别,但仍不保证这是绝对正确的,误差是肯定会存在的,贝叶斯定理下每一次判决的误差概率可以用p(error∣x)p(error|x)p(errorx)表示:
p(error∣x)={p(ω1∣x)如果判定为ω2p(ω2∣x)如果判定为ω1 p(error|x)=\left\{ \begin{aligned} p(\omega_1|x) & & 如果判定为\omega_2 \\ p(\omega_2|x) & & 如果判定为\omega_1 \end{aligned} \right. p(errorx)={p(ω1x)p(ω2x)ω2ω1
而又由于判定规则:
p(ω1∣x)>p(ω2∣x)选择ω1.否则选择ω2 p(\omega_1|x) > p(\omega_2|x) 选择\omega_1.否则选择\omega_2 p(ω1x)>p(ω2x)ω1.ω2
我们可以得到:
p(error∣x)=min[p(ω1∣x),p(ω2∣x)] p(error|x) = min[p(\omega_1|x) , p(\omega_2|x)] p(errorx)=min[p(ω1x),p(ω2x)]
由此我们可以看出,我们每一次判决选择的都是最小的误差概率,所以这种情况下的贝叶斯决策拥有最小的平均误差概率。

这里承上启下:之前描述的贝叶斯决策基于的是最小化平均误差概率,而下面的介绍引入了风险理论,各个类别在误判时风险不同即需要付出的代价不同,而我们决策目标是最小化风险,所以误判风险也会影响最后的决策结果。

基于最小风险的贝叶斯决策的介绍对原问题进行了一些扩展:

  • 特征由单一特征值扩展成特征向量
  • 类别状态也不止两种类别
  • 允许有其他行为,比如说拒绝决策
  • 引入更一般的损失函数来代替误差概率
符号表示

ω1,ω2,...,ωc{\omega_1,\omega_2,...,\omega_c}ω1,ω2,...,ωc:表示有限的ccc个类别状态

α1,α2,..,αα\alpha_1,\alpha_2,..,\alpha_{\alpha}α1,α2,..,αα:表示有限的α\alphaα个可能采取的行为,αi\alpha_iαi通常表示判决状态为类别状态ωi\omega_iωi

λ(αi∣ωj)\lambda(\alpha_i|\omega_j)λ(αiωj):类别状态为 ωj\omega_jωj时采取行动αi\alpha_iαi的风险。

x\boldsymbol xx:将特征值xxx扩展为特征向量x\boldsymbol xx

那么现在的贝叶斯公式变为:
p(ωj∣x)=p(x∣ωj).p(ωj)p(x)p(x)=∑j=12p(x∣ωj)p(ωj) p(\omega_j| \boldsymbol x)=\frac{p(\boldsymbol x|\omega_j).p(\omega_j)}{p(\boldsymbol x)} \\ p( \boldsymbol x) = \sum_{j=1}^2 p(\boldsymbol x|\omega_j)p(\omega_j) \\ p(ωjx)=p(x)p(xωj).p(ωj)p(x)=j=12p(xωj)p(ωj)

当模式x\boldsymbol xx到来之后,并采取行为αi\alpha_iαi之后的条件风险R(αi∣x)R(\alpha_i|\boldsymbol x)R(αix):
R(αi∣x)=∑j=1cλ(αi∣ωj)p(ωj∣x) R(\alpha_i|\boldsymbol x) = \sum_{j=1}^{c}\lambda(\alpha_i|\omega_j)p(\omega_j|\boldsymbol x) R(αix)=j=1cλ(αiωj)p(ωjx)
这个公式也比较好理解,其实就是模式x\boldsymbol xx被判决为各类别状态与被判决为该类别状态的风险的乘积之和,其实计算的相当于一个模式为x\boldsymbol xx的一个风险期望。

引入α(x)\alpha(\boldsymbol x)α(x)为判决函数,总风险为:R=∫R(α(x)∣x)p(x)dxR = \int R(\alpha(\boldsymbol x)|\boldsymbol x)p(\boldsymbol x)d\boldsymbol xR=R(α(x)x)p(x)dx

在这种情况下,为了最小化总风险,当模式x\boldsymbol xx到来时,对所有i=1,...,αi = 1,...,\alphai=1,...,α计算条件风险
R(αi∣x)=∑j=1cλ(αi∣ωj)p(ωj∣x) R(\alpha_i|\boldsymbol x) = \sum_{j=1}^{c}\lambda(\alpha_i|\omega_j)p(\omega_j|\boldsymbol x) R(αix)=j=1cλ(αiωj)p(ωjx)
选择行为αi\alpha_iαi使得R(αi∣x)R(\alpha_i|\boldsymbol x)R(αix)最小。最小化后的风险成为贝叶斯风险。

两类分类问题

这里相当于举个例子,将上述最小化风险理论应用于两类分类问题时的结果。

这里用λij\lambda_{ij}λijλ(αi∣ωj)\lambda(\alpha_i|\omega_j)λ(αiωj),表示实际类别为ωj\omega_jωj被判为ωi\omega_iωi时的风险。当模式x\boldsymbol xx到来时关于α1,α2\alpha_1,\alpha_2α1,α2的条件风险分别为:
R(α1∣x)=λ11p(ω1∣x)+λ12p(ω2∣x)R(α2∣x)=λ21p(ω1∣x)+λ22p(ω2∣x) R(\alpha_1|\boldsymbol x) = \lambda_{11}p(\omega_1|\boldsymbol x)+\lambda_{12}p(\omega_2|\boldsymbol x) \\ R(\alpha_2|\boldsymbol x) = \lambda_{21}p(\omega_1|\boldsymbol x)+\lambda_{22}p(\omega_2|\boldsymbol x) R(α1x)=λ11p(ω1x)+λ12p(ω2x)R(α2x)=λ21p(ω1x)+λ22p(ω2x)
这时候的基本规则就是R(α1∣x)<R(α2∣x)R(\alpha_1|\boldsymbol x) < R(\alpha_2|\boldsymbol x)R(α1x)<R(α2x),判为ω1\omega_1ω1

我们对上面公式转化一下:
R(α1∣x)<R(α2∣x)→λ11p(ω1∣x)+λ12p(ω2∣x)<λ21p(ω1∣x)+λ22p(ω2∣x)→(λ21−λ11)p(ω1∣x)>(λ12−λ22)p(ω2∣x)→(λ21−λ11)p(x∣ω1)p(ω1)>(λ12−λ22)p(x∣ω2)p(ω2) R(\alpha_1|\boldsymbol x) < R(\alpha_2|\boldsymbol x) \\ \to \lambda_{11}p(\omega_1|\boldsymbol x)+\lambda_{12}p(\omega_2|\boldsymbol x) <\lambda_{21}p(\omega_1|\boldsymbol x)+\lambda_{22}p(\omega_2|\boldsymbol x)\\ \to (\lambda_{21}-\lambda_{11})p(\omega_1|\boldsymbol x)>(\lambda_{12}-\lambda_{22})p(\omega_2|\boldsymbol x) \\ \to (\lambda_{21}-\lambda_{11})p(\boldsymbol x|\omega_1)p(\omega_1)>(\lambda_{12}-\lambda_{22})p(\boldsymbol x|\omega_2)p(\omega_2) R(α1x)<R(α2x)λ11p(ω1x)+λ12p(ω2x)<λ21p(ω1x)+λ22p(ω2x)(λ21λ11)p(ω1x)>(λ12λ22)p(ω2x)(λ21λ11)p(xω1)p(ω1)>(λ12λ22)p(xω2)p(ω2)
这里推出来的最后一个式子就是最后的判决为ω1\omega_1ω1需要满足的公式。我们和之前基于最小化误差概率的判决公式对比一下,发现其实多了一个风险来参与调节选择,由之前的似然概率,先验概率共同判断变成了现在的由误判风险,似然概率,先验概率三者一起判断。

这里为了便于理解,我们可以带点数进去算。

λ11\lambda_{11}λ11λ12\lambda_{12}λ12λ21\lambda_{21}λ21λ22\lambda_{22}λ22
01100

这里的设置是判决正确不产生任何风险,将类别ω2\omega_2ω2错判为ω1\omega_1ω1风险为1小于将类别ω1\omega_1ω1判为ω2\omega_2ω2的风险。

在这里插入图片描述

这时候计算一下
10×0.1=1>1×0.9 10 \times 0.1 = 1 >1 \times 0.9 10×0.1=1>1×0.9
所以即使类别状态ω2\omega_2ω2的似然概率和先验概率乘积更大,我们仍然选择的是判别为ω1\omega_1ω1,因为将ω1\omega_1ω1错判为ω2\omega_2ω2的风险太大了,即使也似然概率和先验概率较大也不足以承担。

最后介绍一下似然比,也是通过之前的公式推过来的。
(λ21−λ11)p(x∣ω1)p(ω1)>(λ12−λ22)p(x∣ω2)p(ω2)→p(x∣ω1)p(x∣ω2)>λ12−λ22λ21−λ11p(ω2)p(ω1) (\lambda_{21}-\lambda_{11})p(\boldsymbol x|\omega_1)p(\omega_1)>(\lambda_{12}-\lambda_{22})p(\boldsymbol x|\omega_2)p(\omega_2) \\ \to \frac{p(\boldsymbol x|\omega_1)}{p(\boldsymbol x|\omega_2)} > \frac{\lambda_{12}-\lambda_{22}}{\lambda_{21}-\lambda_{11}}\frac{p(\omega_2)}{p(\omega_1)} (λ21λ11)p(xω1)p(ω1)>(λ12λ22)p(xω2)p(ω2)p(xω2)p(xω1)>λ21λ11λ12λ22p(ω1)p(ω2)
化成这个公式之后,我们就可以统一一下格式了,最小化误差概率和最小化风险相差的只是一个风险比值。那么贝叶斯决策规则就可以解释成如果似然比超过一个不依赖于x\boldsymbol xx的阈值即可。

好啦,课上的内容结束啦,下次上课继续~~~~。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值