贝叶斯决策规则(1)

贝叶斯决策规则(1)

符号标记

ω \omega ω:类别标记随机变量, ω 1 , ω 2 \omega_1,\omega_2 ω1,ω2分别表示类别标记为1,2。

x x x:与决策相关特征值。

p ( ω 1 ) , p ( ω 2 ) p(\omega_1),p(\omega_2) p(ω1),p(ω2):两个类别的先验概率。

p ( x ∣ ω 1 ) p(x|\omega_1) p(xω1):类别为1时,特征取值为 x x x的概率。

p ( ω 1 ∣ x ) p(\omega_1|x) p(ω1x):特征取值为 x x x,类别为1的概率。

贝叶斯公式

p ( ω j ∣ x ) = p ( x ∣ ω j ) . p ( ω j ) p ( x ) p ( x ) = ∑ j = 1 2 p ( x ∣ ω j ) p ( ω j ) p o s t e r i o r = l i k e l i h o o d × p r i o r e v i d e n c e p(\omega_j|x)=\frac{p(x|\omega_j).p(\omega_j)}{p(x)} \\ p(x) = \sum_{j=1}^2 p(x|\omega_j)p(\omega_j) \\ posterior = \frac{likelihood\times prior}{evidence} p(ωjx)=p(x)p(xωj).p(ωj)p(x)=j=12p(xωj)p(ωj)posterior=evidencelikelihood×prior

我的理解 p ( ω 1 ∣ x ) > p ( ω 2 ∣ x ) p(\omega_1|x) > p(\omega_2|x) p(ω1x)>p(ω2x)时选择 ω 1 \omega_1 ω1。在贝叶斯公式里 p ( x ) p(x) p(x)是用来归一化的,并不影响决策结果。真正影响决策结果的是 p ( x ∣ ω j ) p(x|\omega_j) p(xωj)以及 p ( ω j ) p(\omega_j) p(ωj),前者称之为似然概率,后者称之为先验概率。可以说是这两者共同决定了判决结果。当类别状态等可能出现时,即 p ( ω 1 ) = p ( ω 2 ) p(\omega_1)=p(\omega_2) p(ω1)=p(ω2)时,决定判决结果的是似然概率;而当似然概率相同时,判决则取决于先验概率。我觉得似然概率可以理解成现实生活中我们观察统计到的概率,既然被我们观察到了,那么这就是合理的,自然可以用来影响最后的判决。而先验概率是先验知识,本身表示了各个类别状态出现的概率,自然也能影响最后的判决结果。

虽然我们在判决时选择了概率较大的类别,但仍不保证这是绝对正确的,误差是肯定会存在的,贝叶斯定理下每一次判决的误差概率可以用 p ( e r r o r ∣ x ) p(error|x) p(errorx)表示:
p ( e r r o r ∣ x ) = { p ( ω 1 ∣ x ) 如 果 判 定 为 ω 2 p ( ω 2 ∣ x ) 如 果 判 定 为 ω 1 p(error|x)=\left\{ \begin{aligned} p(\omega_1|x) & & 如果判定为\omega_2 \\ p(\omega_2|x) & & 如果判定为\omega_1 \end{aligned} \right. p(errorx)={p(ω1x)p(ω2x)ω2ω1
而又由于判定规则:
p ( ω 1 ∣ x ) > p ( ω 2 ∣ x ) 选 择 ω 1 . 否 则 选 择 ω 2 p(\omega_1|x) > p(\omega_2|x) 选择\omega_1.否则选择\omega_2 p(ω1x)>p(ω2x)ω1.ω2
我们可以得到:
p ( e r r o r ∣ x ) = m i n [ p ( ω 1 ∣ x ) , p ( ω 2 ∣ x ) ] p(error|x) = min[p(\omega_1|x) , p(\omega_2|x)] p(errorx)=min[p(ω1x),p(ω2x)]
由此我们可以看出,我们每一次判决选择的都是最小的误差概率,所以这种情况下的贝叶斯决策拥有最小的平均误差概率。

这里承上启下:之前描述的贝叶斯决策基于的是最小化平均误差概率,而下面的介绍引入了风险理论,各个类别在误判时风险不同即需要付出的代价不同,而我们决策目标是最小化风险,所以误判风险也会影响最后的决策结果。

基于最小风险的贝叶斯决策的介绍对原问题进行了一些扩展:

  • 特征由单一特征值扩展成特征向量
  • 类别状态也不止两种类别
  • 允许有其他行为,比如说拒绝决策
  • 引入更一般的损失函数来代替误差概率
符号表示

ω 1 , ω 2 , . . . , ω c {\omega_1,\omega_2,...,\omega_c} ω1,ω2,...,ωc:表示有限的 c c c个类别状态

α 1 , α 2 , . . , α α \alpha_1,\alpha_2,..,\alpha_{\alpha} α1,α2,..,αα:表示有限的 α \alpha α个可能采取的行为, α i \alpha_i αi通常表示判决状态为类别状态 ω i \omega_i ωi

λ ( α i ∣ ω j ) \lambda(\alpha_i|\omega_j) λ(αiωj):类别状态为 ω j \omega_j ωj时采取行动 α i \alpha_i αi的风险。

x \boldsymbol x x:将特征值 x x x扩展为特征向量 x \boldsymbol x x

那么现在的贝叶斯公式变为:
p ( ω j ∣ x ) = p ( x ∣ ω j ) . p ( ω j ) p ( x ) p ( x ) = ∑ j = 1 2 p ( x ∣ ω j ) p ( ω j ) p(\omega_j| \boldsymbol x)=\frac{p(\boldsymbol x|\omega_j).p(\omega_j)}{p(\boldsymbol x)} \\ p( \boldsymbol x) = \sum_{j=1}^2 p(\boldsymbol x|\omega_j)p(\omega_j) \\ p(ωjx)=p(x)p(xωj).p(ωj)p(x)=j=12p(xωj)p(ωj)

当模式 x \boldsymbol x x到来之后,并采取行为 α i \alpha_i αi之后的条件风险 R ( α i ∣ x ) R(\alpha_i|\boldsymbol x) R(αix):
R ( α i ∣ x ) = ∑ j = 1 c λ ( α i ∣ ω j ) p ( ω j ∣ x ) R(\alpha_i|\boldsymbol x) = \sum_{j=1}^{c}\lambda(\alpha_i|\omega_j)p(\omega_j|\boldsymbol x) R(αix)=j=1cλ(αiωj)p(ωjx)
这个公式也比较好理解,其实就是模式 x \boldsymbol x x被判决为各类别状态与被判决为该类别状态的风险的乘积之和,其实计算的相当于一个模式为 x \boldsymbol x x的一个风险期望。

引入 α ( x ) \alpha(\boldsymbol x) α(x)为判决函数,总风险为: R = ∫ R ( α ( x ) ∣ x ) p ( x ) d x R = \int R(\alpha(\boldsymbol x)|\boldsymbol x)p(\boldsymbol x)d\boldsymbol x R=R(α(x)x)p(x)dx

在这种情况下,为了最小化总风险,当模式 x \boldsymbol x x到来时,对所有 i = 1 , . . . , α i = 1,...,\alpha i=1,...,α计算条件风险
R ( α i ∣ x ) = ∑ j = 1 c λ ( α i ∣ ω j ) p ( ω j ∣ x ) R(\alpha_i|\boldsymbol x) = \sum_{j=1}^{c}\lambda(\alpha_i|\omega_j)p(\omega_j|\boldsymbol x) R(αix)=j=1cλ(αiωj)p(ωjx)
选择行为 α i \alpha_i αi使得 R ( α i ∣ x ) R(\alpha_i|\boldsymbol x) R(αix)最小。最小化后的风险成为贝叶斯风险。

两类分类问题

这里相当于举个例子,将上述最小化风险理论应用于两类分类问题时的结果。

这里用 λ i j \lambda_{ij} λij λ ( α i ∣ ω j ) \lambda(\alpha_i|\omega_j) λ(αiωj),表示实际类别为 ω j \omega_j ωj被判为 ω i \omega_i ωi时的风险。当模式 x \boldsymbol x x到来时关于 α 1 , α 2 \alpha_1,\alpha_2 α1,α2的条件风险分别为:
R ( α 1 ∣ x ) = λ 11 p ( ω 1 ∣ x ) + λ 12 p ( ω 2 ∣ x ) R ( α 2 ∣ x ) = λ 21 p ( ω 1 ∣ x ) + λ 22 p ( ω 2 ∣ x ) R(\alpha_1|\boldsymbol x) = \lambda_{11}p(\omega_1|\boldsymbol x)+\lambda_{12}p(\omega_2|\boldsymbol x) \\ R(\alpha_2|\boldsymbol x) = \lambda_{21}p(\omega_1|\boldsymbol x)+\lambda_{22}p(\omega_2|\boldsymbol x) R(α1x)=λ11p(ω1x)+λ12p(ω2x)R(α2x)=λ21p(ω1x)+λ22p(ω2x)
这时候的基本规则就是 R ( α 1 ∣ x ) < R ( α 2 ∣ x ) R(\alpha_1|\boldsymbol x) < R(\alpha_2|\boldsymbol x) R(α1x)<R(α2x),判为 ω 1 \omega_1 ω1

我们对上面公式转化一下:
R ( α 1 ∣ x ) < R ( α 2 ∣ x ) → λ 11 p ( ω 1 ∣ x ) + λ 12 p ( ω 2 ∣ x ) < λ 21 p ( ω 1 ∣ x ) + λ 22 p ( ω 2 ∣ x ) → ( λ 21 − λ 11 ) p ( ω 1 ∣ x ) > ( λ 12 − λ 22 ) p ( ω 2 ∣ x ) → ( λ 21 − λ 11 ) p ( x ∣ ω 1 ) p ( ω 1 ) > ( λ 12 − λ 22 ) p ( x ∣ ω 2 ) p ( ω 2 ) R(\alpha_1|\boldsymbol x) < R(\alpha_2|\boldsymbol x) \\ \to \lambda_{11}p(\omega_1|\boldsymbol x)+\lambda_{12}p(\omega_2|\boldsymbol x) <\lambda_{21}p(\omega_1|\boldsymbol x)+\lambda_{22}p(\omega_2|\boldsymbol x)\\ \to (\lambda_{21}-\lambda_{11})p(\omega_1|\boldsymbol x)>(\lambda_{12}-\lambda_{22})p(\omega_2|\boldsymbol x) \\ \to (\lambda_{21}-\lambda_{11})p(\boldsymbol x|\omega_1)p(\omega_1)>(\lambda_{12}-\lambda_{22})p(\boldsymbol x|\omega_2)p(\omega_2) R(α1x)<R(α2x)λ11p(ω1x)+λ12p(ω2x)<λ21p(ω1x)+λ22p(ω2x)(λ21λ11)p(ω1x)>(λ12λ22)p(ω2x)(λ21λ11)p(xω1)p(ω1)>(λ12λ22)p(xω2)p(ω2)
这里推出来的最后一个式子就是最后的判决为 ω 1 \omega_1 ω1需要满足的公式。我们和之前基于最小化误差概率的判决公式对比一下,发现其实多了一个风险来参与调节选择,由之前的似然概率,先验概率共同判断变成了现在的由误判风险,似然概率,先验概率三者一起判断。

这里为了便于理解,我们可以带点数进去算。

λ 11 \lambda_{11} λ11 λ 12 \lambda_{12} λ12 λ 21 \lambda_{21} λ21 λ 22 \lambda_{22} λ22
01100

这里的设置是判决正确不产生任何风险,将类别 ω 2 \omega_2 ω2错判为 ω 1 \omega_1 ω1风险为1小于将类别 ω 1 \omega_1 ω1判为 ω 2 \omega_2 ω2的风险。

在这里插入图片描述

这时候计算一下
10 × 0.1 = 1 > 1 × 0.9 10 \times 0.1 = 1 >1 \times 0.9 10×0.1=1>1×0.9
所以即使类别状态 ω 2 \omega_2 ω2的似然概率和先验概率乘积更大,我们仍然选择的是判别为 ω 1 \omega_1 ω1,因为将 ω 1 \omega_1 ω1错判为 ω 2 \omega_2 ω2的风险太大了,即使也似然概率和先验概率较大也不足以承担。

最后介绍一下似然比,也是通过之前的公式推过来的。
( λ 21 − λ 11 ) p ( x ∣ ω 1 ) p ( ω 1 ) > ( λ 12 − λ 22 ) p ( x ∣ ω 2 ) p ( ω 2 ) → p ( x ∣ ω 1 ) p ( x ∣ ω 2 ) > λ 12 − λ 22 λ 21 − λ 11 p ( ω 2 ) p ( ω 1 ) (\lambda_{21}-\lambda_{11})p(\boldsymbol x|\omega_1)p(\omega_1)>(\lambda_{12}-\lambda_{22})p(\boldsymbol x|\omega_2)p(\omega_2) \\ \to \frac{p(\boldsymbol x|\omega_1)}{p(\boldsymbol x|\omega_2)} > \frac{\lambda_{12}-\lambda_{22}}{\lambda_{21}-\lambda_{11}}\frac{p(\omega_2)}{p(\omega_1)} (λ21λ11)p(xω1)p(ω1)>(λ12λ22)p(xω2)p(ω2)p(xω2)p(xω1)>λ21λ11λ12λ22p(ω1)p(ω2)
化成这个公式之后,我们就可以统一一下格式了,最小化误差概率和最小化风险相差的只是一个风险比值。那么贝叶斯决策规则就可以解释成如果似然比超过一个不依赖于 x \boldsymbol x x的阈值即可。

好啦,课上的内容结束啦,下次上课继续~~~~。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值