贝叶斯决策规则(1)
符号标记
ω\omegaω:类别标记随机变量,ω1,ω2\omega_1,\omega_2ω1,ω2分别表示类别标记为1,2。
xxx:与决策相关特征值。
p(ω1),p(ω2)p(\omega_1),p(\omega_2)p(ω1),p(ω2):两个类别的先验概率。
p(x∣ω1)p(x|\omega_1)p(x∣ω1):类别为1时,特征取值为xxx的概率。
p(ω1∣x)p(\omega_1|x)p(ω1∣x):特征取值为xxx,类别为1的概率。
贝叶斯公式
p(ωj∣x)=p(x∣ωj).p(ωj)p(x)p(x)=∑j=12p(x∣ωj)p(ωj)posterior=likelihood×priorevidence p(\omega_j|x)=\frac{p(x|\omega_j).p(\omega_j)}{p(x)} \\ p(x) = \sum_{j=1}^2 p(x|\omega_j)p(\omega_j) \\ posterior = \frac{likelihood\times prior}{evidence} p(ωj∣x)=p(x)p(x∣ωj).p(ωj)p(x)=j=1∑2p(x∣ωj)p(ωj)posterior=evidencelikelihood×prior
我的理解: p(ω1∣x)>p(ω2∣x)p(\omega_1|x) > p(\omega_2|x)p(ω1∣x)>p(ω2∣x)时选择ω1\omega_1ω1。在贝叶斯公式里p(x)p(x)p(x)是用来归一化的,并不影响决策结果。真正影响决策结果的是p(x∣ωj)p(x|\omega_j)p(x∣ωj)以及p(ωj)p(\omega_j)p(ωj),前者称之为似然概率,后者称之为先验概率。可以说是这两者共同决定了判决结果。当类别状态等可能出现时,即p(ω1)=p(ω2)p(\omega_1)=p(\omega_2)p(ω1)=p(ω2)时,决定判决结果的是似然概率;而当似然概率相同时,判决则取决于先验概率。我觉得似然概率可以理解成现实生活中我们观察统计到的概率,既然被我们观察到了,那么这就是合理的,自然可以用来影响最后的判决。而先验概率是先验知识,本身表示了各个类别状态出现的概率,自然也能影响最后的判决结果。
虽然我们在判决时选择了概率较大的类别,但仍不保证这是绝对正确的,误差是肯定会存在的,贝叶斯定理下每一次判决的误差概率可以用p(error∣x)p(error|x)p(error∣x)表示:
p(error∣x)={p(ω1∣x)如果判定为ω2p(ω2∣x)如果判定为ω1
p(error|x)=\left\{
\begin{aligned}
p(\omega_1|x) & & 如果判定为\omega_2 \\
p(\omega_2|x) & & 如果判定为\omega_1
\end{aligned}
\right.
p(error∣x)={p(ω1∣x)p(ω2∣x)如果判定为ω2如果判定为ω1
而又由于判定规则:
p(ω1∣x)>p(ω2∣x)选择ω1.否则选择ω2
p(\omega_1|x) > p(\omega_2|x) 选择\omega_1.否则选择\omega_2
p(ω1∣x)>p(ω2∣x)选择ω1.否则选择ω2
我们可以得到:
p(error∣x)=min[p(ω1∣x),p(ω2∣x)]
p(error|x) = min[p(\omega_1|x) , p(\omega_2|x)]
p(error∣x)=min[p(ω1∣x),p(ω2∣x)]
由此我们可以看出,我们每一次判决选择的都是最小的误差概率,所以这种情况下的贝叶斯决策拥有最小的平均误差概率。
这里承上启下:之前描述的贝叶斯决策基于的是最小化平均误差概率,而下面的介绍引入了风险理论,各个类别在误判时风险不同即需要付出的代价不同,而我们决策目标是最小化风险,所以误判风险也会影响最后的决策结果。
基于最小风险的贝叶斯决策的介绍对原问题进行了一些扩展:
- 特征由单一特征值扩展成特征向量
- 类别状态也不止两种类别
- 允许有其他行为,比如说拒绝决策
- 引入更一般的损失函数来代替误差概率
符号表示
ω1,ω2,...,ωc{\omega_1,\omega_2,...,\omega_c}ω1,ω2,...,ωc:表示有限的ccc个类别状态
α1,α2,..,αα\alpha_1,\alpha_2,..,\alpha_{\alpha}α1,α2,..,αα:表示有限的α\alphaα个可能采取的行为,αi\alpha_iαi通常表示判决状态为类别状态ωi\omega_iωi
λ(αi∣ωj)\lambda(\alpha_i|\omega_j)λ(αi∣ωj):类别状态为 ωj\omega_jωj时采取行动αi\alpha_iαi的风险。
x\boldsymbol xx:将特征值xxx扩展为特征向量x\boldsymbol xx
那么现在的贝叶斯公式变为:
p(ωj∣x)=p(x∣ωj).p(ωj)p(x)p(x)=∑j=12p(x∣ωj)p(ωj)
p(\omega_j| \boldsymbol x)=\frac{p(\boldsymbol x|\omega_j).p(\omega_j)}{p(\boldsymbol x)} \\
p( \boldsymbol x) = \sum_{j=1}^2 p(\boldsymbol x|\omega_j)p(\omega_j) \\
p(ωj∣x)=p(x)p(x∣ωj).p(ωj)p(x)=j=1∑2p(x∣ωj)p(ωj)
当模式x\boldsymbol xx到来之后,并采取行为αi\alpha_iαi之后的条件风险R(αi∣x)R(\alpha_i|\boldsymbol x)R(αi∣x):
R(αi∣x)=∑j=1cλ(αi∣ωj)p(ωj∣x)
R(\alpha_i|\boldsymbol x) = \sum_{j=1}^{c}\lambda(\alpha_i|\omega_j)p(\omega_j|\boldsymbol x)
R(αi∣x)=j=1∑cλ(αi∣ωj)p(ωj∣x)
这个公式也比较好理解,其实就是模式x\boldsymbol xx被判决为各类别状态与被判决为该类别状态的风险的乘积之和,其实计算的相当于一个模式为x\boldsymbol xx的一个风险期望。
引入α(x)\alpha(\boldsymbol x)α(x)为判决函数,总风险为:R=∫R(α(x)∣x)p(x)dxR = \int R(\alpha(\boldsymbol x)|\boldsymbol x)p(\boldsymbol x)d\boldsymbol xR=∫R(α(x)∣x)p(x)dx
在这种情况下,为了最小化总风险,当模式x\boldsymbol xx到来时,对所有i=1,...,αi = 1,...,\alphai=1,...,α计算条件风险
R(αi∣x)=∑j=1cλ(αi∣ωj)p(ωj∣x)
R(\alpha_i|\boldsymbol x) = \sum_{j=1}^{c}\lambda(\alpha_i|\omega_j)p(\omega_j|\boldsymbol x)
R(αi∣x)=j=1∑cλ(αi∣ωj)p(ωj∣x)
选择行为αi\alpha_iαi使得R(αi∣x)R(\alpha_i|\boldsymbol x)R(αi∣x)最小。最小化后的风险成为贝叶斯风险。
两类分类问题
这里相当于举个例子,将上述最小化风险理论应用于两类分类问题时的结果。
这里用λij\lambda_{ij}λij记λ(αi∣ωj)\lambda(\alpha_i|\omega_j)λ(αi∣ωj),表示实际类别为ωj\omega_jωj被判为ωi\omega_iωi时的风险。当模式x\boldsymbol xx到来时关于α1,α2\alpha_1,\alpha_2α1,α2的条件风险分别为:
R(α1∣x)=λ11p(ω1∣x)+λ12p(ω2∣x)R(α2∣x)=λ21p(ω1∣x)+λ22p(ω2∣x)
R(\alpha_1|\boldsymbol x) = \lambda_{11}p(\omega_1|\boldsymbol x)+\lambda_{12}p(\omega_2|\boldsymbol x) \\
R(\alpha_2|\boldsymbol x) = \lambda_{21}p(\omega_1|\boldsymbol x)+\lambda_{22}p(\omega_2|\boldsymbol x)
R(α1∣x)=λ11p(ω1∣x)+λ12p(ω2∣x)R(α2∣x)=λ21p(ω1∣x)+λ22p(ω2∣x)
这时候的基本规则就是R(α1∣x)<R(α2∣x)R(\alpha_1|\boldsymbol x) < R(\alpha_2|\boldsymbol x)R(α1∣x)<R(α2∣x),判为ω1\omega_1ω1。
我们对上面公式转化一下:
R(α1∣x)<R(α2∣x)→λ11p(ω1∣x)+λ12p(ω2∣x)<λ21p(ω1∣x)+λ22p(ω2∣x)→(λ21−λ11)p(ω1∣x)>(λ12−λ22)p(ω2∣x)→(λ21−λ11)p(x∣ω1)p(ω1)>(λ12−λ22)p(x∣ω2)p(ω2)
R(\alpha_1|\boldsymbol x) < R(\alpha_2|\boldsymbol x) \\
\to \lambda_{11}p(\omega_1|\boldsymbol x)+\lambda_{12}p(\omega_2|\boldsymbol x) <\lambda_{21}p(\omega_1|\boldsymbol x)+\lambda_{22}p(\omega_2|\boldsymbol x)\\
\to (\lambda_{21}-\lambda_{11})p(\omega_1|\boldsymbol x)>(\lambda_{12}-\lambda_{22})p(\omega_2|\boldsymbol x) \\
\to (\lambda_{21}-\lambda_{11})p(\boldsymbol x|\omega_1)p(\omega_1)>(\lambda_{12}-\lambda_{22})p(\boldsymbol x|\omega_2)p(\omega_2)
R(α1∣x)<R(α2∣x)→λ11p(ω1∣x)+λ12p(ω2∣x)<λ21p(ω1∣x)+λ22p(ω2∣x)→(λ21−λ11)p(ω1∣x)>(λ12−λ22)p(ω2∣x)→(λ21−λ11)p(x∣ω1)p(ω1)>(λ12−λ22)p(x∣ω2)p(ω2)
这里推出来的最后一个式子就是最后的判决为ω1\omega_1ω1需要满足的公式。我们和之前基于最小化误差概率的判决公式对比一下,发现其实多了一个风险来参与调节选择,由之前的似然概率,先验概率共同判断变成了现在的由误判风险,似然概率,先验概率三者一起判断。
这里为了便于理解,我们可以带点数进去算。
λ11\lambda_{11}λ11 | λ12\lambda_{12}λ12 | λ21\lambda_{21}λ21 | λ22\lambda_{22}λ22 |
---|---|---|---|
0 | 1 | 10 | 0 |
这里的设置是判决正确不产生任何风险,将类别ω2\omega_2ω2错判为ω1\omega_1ω1风险为1小于将类别ω1\omega_1ω1判为ω2\omega_2ω2的风险。
这时候计算一下
10×0.1=1>1×0.9
10 \times 0.1 = 1 >1 \times 0.9
10×0.1=1>1×0.9
所以即使类别状态ω2\omega_2ω2的似然概率和先验概率乘积更大,我们仍然选择的是判别为ω1\omega_1ω1,因为将ω1\omega_1ω1错判为ω2\omega_2ω2的风险太大了,即使也似然概率和先验概率较大也不足以承担。
最后介绍一下似然比,也是通过之前的公式推过来的。
(λ21−λ11)p(x∣ω1)p(ω1)>(λ12−λ22)p(x∣ω2)p(ω2)→p(x∣ω1)p(x∣ω2)>λ12−λ22λ21−λ11p(ω2)p(ω1)
(\lambda_{21}-\lambda_{11})p(\boldsymbol x|\omega_1)p(\omega_1)>(\lambda_{12}-\lambda_{22})p(\boldsymbol x|\omega_2)p(\omega_2) \\
\to \frac{p(\boldsymbol x|\omega_1)}{p(\boldsymbol x|\omega_2)} > \frac{\lambda_{12}-\lambda_{22}}{\lambda_{21}-\lambda_{11}}\frac{p(\omega_2)}{p(\omega_1)}
(λ21−λ11)p(x∣ω1)p(ω1)>(λ12−λ22)p(x∣ω2)p(ω2)→p(x∣ω2)p(x∣ω1)>λ21−λ11λ12−λ22p(ω1)p(ω2)
化成这个公式之后,我们就可以统一一下格式了,最小化误差概率和最小化风险相差的只是一个风险比值。那么贝叶斯决策规则就可以解释成如果似然比超过一个不依赖于x\boldsymbol xx的阈值即可。
好啦,课上的内容结束啦,下次上课继续~~~~。