贝叶斯决策规则(1)
符号标记
ω \omega ω:类别标记随机变量, ω 1 , ω 2 \omega_1,\omega_2 ω1,ω2分别表示类别标记为1,2。
x x x:与决策相关特征值。
p ( ω 1 ) , p ( ω 2 ) p(\omega_1),p(\omega_2) p(ω1),p(ω2):两个类别的先验概率。
p ( x ∣ ω 1 ) p(x|\omega_1) p(x∣ω1):类别为1时,特征取值为 x x x的概率。
p ( ω 1 ∣ x ) p(\omega_1|x) p(ω1∣x):特征取值为 x x x,类别为1的概率。
贝叶斯公式
p ( ω j ∣ x ) = p ( x ∣ ω j ) . p ( ω j ) p ( x ) p ( x ) = ∑ j = 1 2 p ( x ∣ ω j ) p ( ω j ) p o s t e r i o r = l i k e l i h o o d × p r i o r e v i d e n c e p(\omega_j|x)=\frac{p(x|\omega_j).p(\omega_j)}{p(x)} \\ p(x) = \sum_{j=1}^2 p(x|\omega_j)p(\omega_j) \\ posterior = \frac{likelihood\times prior}{evidence} p(ωj∣x)=p(x)p(x∣ωj).p(ωj)p(x)=j=1∑2p(x∣ωj)p(ωj)posterior=evidencelikelihood×prior
我的理解: p ( ω 1 ∣ x ) > p ( ω 2 ∣ x ) p(\omega_1|x) > p(\omega_2|x) p(ω1∣x)>p(ω2∣x)时选择 ω 1 \omega_1 ω1。在贝叶斯公式里 p ( x ) p(x) p(x)是用来归一化的,并不影响决策结果。真正影响决策结果的是 p ( x ∣ ω j ) p(x|\omega_j) p(x∣ωj)以及 p ( ω j ) p(\omega_j) p(ωj),前者称之为似然概率,后者称之为先验概率。可以说是这两者共同决定了判决结果。当类别状态等可能出现时,即 p ( ω 1 ) = p ( ω 2 ) p(\omega_1)=p(\omega_2) p(ω1)=p(ω2)时,决定判决结果的是似然概率;而当似然概率相同时,判决则取决于先验概率。我觉得似然概率可以理解成现实生活中我们观察统计到的概率,既然被我们观察到了,那么这就是合理的,自然可以用来影响最后的判决。而先验概率是先验知识,本身表示了各个类别状态出现的概率,自然也能影响最后的判决结果。
虽然我们在判决时选择了概率较大的类别,但仍不保证这是绝对正确的,误差是肯定会存在的,贝叶斯定理下每一次判决的误差概率可以用
p
(
e
r
r
o
r
∣
x
)
p(error|x)
p(error∣x)表示:
p
(
e
r
r
o
r
∣
x
)
=
{
p
(
ω
1
∣
x
)
如
果
判
定
为
ω
2
p
(
ω
2
∣
x
)
如
果
判
定
为
ω
1
p(error|x)=\left\{ \begin{aligned} p(\omega_1|x) & & 如果判定为\omega_2 \\ p(\omega_2|x) & & 如果判定为\omega_1 \end{aligned} \right.
p(error∣x)={p(ω1∣x)p(ω2∣x)如果判定为ω2如果判定为ω1
而又由于判定规则:
p
(
ω
1
∣
x
)
>
p
(
ω
2
∣
x
)
选
择
ω
1
.
否
则
选
择
ω
2
p(\omega_1|x) > p(\omega_2|x) 选择\omega_1.否则选择\omega_2
p(ω1∣x)>p(ω2∣x)选择ω1.否则选择ω2
我们可以得到:
p
(
e
r
r
o
r
∣
x
)
=
m
i
n
[
p
(
ω
1
∣
x
)
,
p
(
ω
2
∣
x
)
]
p(error|x) = min[p(\omega_1|x) , p(\omega_2|x)]
p(error∣x)=min[p(ω1∣x),p(ω2∣x)]
由此我们可以看出,我们每一次判决选择的都是最小的误差概率,所以这种情况下的贝叶斯决策拥有最小的平均误差概率。
这里承上启下:之前描述的贝叶斯决策基于的是最小化平均误差概率,而下面的介绍引入了风险理论,各个类别在误判时风险不同即需要付出的代价不同,而我们决策目标是最小化风险,所以误判风险也会影响最后的决策结果。
基于最小风险的贝叶斯决策的介绍对原问题进行了一些扩展:
- 特征由单一特征值扩展成特征向量
- 类别状态也不止两种类别
- 允许有其他行为,比如说拒绝决策
- 引入更一般的损失函数来代替误差概率
符号表示
ω 1 , ω 2 , . . . , ω c {\omega_1,\omega_2,...,\omega_c} ω1,ω2,...,ωc:表示有限的 c c c个类别状态
α 1 , α 2 , . . , α α \alpha_1,\alpha_2,..,\alpha_{\alpha} α1,α2,..,αα:表示有限的 α \alpha α个可能采取的行为, α i \alpha_i αi通常表示判决状态为类别状态 ω i \omega_i ωi
λ ( α i ∣ ω j ) \lambda(\alpha_i|\omega_j) λ(αi∣ωj):类别状态为 ω j \omega_j ωj时采取行动 α i \alpha_i αi的风险。
x \boldsymbol x x:将特征值 x x x扩展为特征向量 x \boldsymbol x x
那么现在的贝叶斯公式变为:
p
(
ω
j
∣
x
)
=
p
(
x
∣
ω
j
)
.
p
(
ω
j
)
p
(
x
)
p
(
x
)
=
∑
j
=
1
2
p
(
x
∣
ω
j
)
p
(
ω
j
)
p(\omega_j| \boldsymbol x)=\frac{p(\boldsymbol x|\omega_j).p(\omega_j)}{p(\boldsymbol x)} \\ p( \boldsymbol x) = \sum_{j=1}^2 p(\boldsymbol x|\omega_j)p(\omega_j) \\
p(ωj∣x)=p(x)p(x∣ωj).p(ωj)p(x)=j=1∑2p(x∣ωj)p(ωj)
当模式
x
\boldsymbol x
x到来之后,并采取行为
α
i
\alpha_i
αi之后的条件风险
R
(
α
i
∣
x
)
R(\alpha_i|\boldsymbol x)
R(αi∣x):
R
(
α
i
∣
x
)
=
∑
j
=
1
c
λ
(
α
i
∣
ω
j
)
p
(
ω
j
∣
x
)
R(\alpha_i|\boldsymbol x) = \sum_{j=1}^{c}\lambda(\alpha_i|\omega_j)p(\omega_j|\boldsymbol x)
R(αi∣x)=j=1∑cλ(αi∣ωj)p(ωj∣x)
这个公式也比较好理解,其实就是模式
x
\boldsymbol x
x被判决为各类别状态与被判决为该类别状态的风险的乘积之和,其实计算的相当于一个模式为
x
\boldsymbol x
x的一个风险期望。
引入 α ( x ) \alpha(\boldsymbol x) α(x)为判决函数,总风险为: R = ∫ R ( α ( x ) ∣ x ) p ( x ) d x R = \int R(\alpha(\boldsymbol x)|\boldsymbol x)p(\boldsymbol x)d\boldsymbol x R=∫R(α(x)∣x)p(x)dx
在这种情况下,为了最小化总风险,当模式
x
\boldsymbol x
x到来时,对所有
i
=
1
,
.
.
.
,
α
i = 1,...,\alpha
i=1,...,α计算条件风险
R
(
α
i
∣
x
)
=
∑
j
=
1
c
λ
(
α
i
∣
ω
j
)
p
(
ω
j
∣
x
)
R(\alpha_i|\boldsymbol x) = \sum_{j=1}^{c}\lambda(\alpha_i|\omega_j)p(\omega_j|\boldsymbol x)
R(αi∣x)=j=1∑cλ(αi∣ωj)p(ωj∣x)
选择行为
α
i
\alpha_i
αi使得
R
(
α
i
∣
x
)
R(\alpha_i|\boldsymbol x)
R(αi∣x)最小。最小化后的风险成为贝叶斯风险。
两类分类问题
这里相当于举个例子,将上述最小化风险理论应用于两类分类问题时的结果。
这里用
λ
i
j
\lambda_{ij}
λij记
λ
(
α
i
∣
ω
j
)
\lambda(\alpha_i|\omega_j)
λ(αi∣ωj),表示实际类别为
ω
j
\omega_j
ωj被判为
ω
i
\omega_i
ωi时的风险。当模式
x
\boldsymbol x
x到来时关于
α
1
,
α
2
\alpha_1,\alpha_2
α1,α2的条件风险分别为:
R
(
α
1
∣
x
)
=
λ
11
p
(
ω
1
∣
x
)
+
λ
12
p
(
ω
2
∣
x
)
R
(
α
2
∣
x
)
=
λ
21
p
(
ω
1
∣
x
)
+
λ
22
p
(
ω
2
∣
x
)
R(\alpha_1|\boldsymbol x) = \lambda_{11}p(\omega_1|\boldsymbol x)+\lambda_{12}p(\omega_2|\boldsymbol x) \\ R(\alpha_2|\boldsymbol x) = \lambda_{21}p(\omega_1|\boldsymbol x)+\lambda_{22}p(\omega_2|\boldsymbol x)
R(α1∣x)=λ11p(ω1∣x)+λ12p(ω2∣x)R(α2∣x)=λ21p(ω1∣x)+λ22p(ω2∣x)
这时候的基本规则就是
R
(
α
1
∣
x
)
<
R
(
α
2
∣
x
)
R(\alpha_1|\boldsymbol x) < R(\alpha_2|\boldsymbol x)
R(α1∣x)<R(α2∣x),判为
ω
1
\omega_1
ω1。
我们对上面公式转化一下:
R
(
α
1
∣
x
)
<
R
(
α
2
∣
x
)
→
λ
11
p
(
ω
1
∣
x
)
+
λ
12
p
(
ω
2
∣
x
)
<
λ
21
p
(
ω
1
∣
x
)
+
λ
22
p
(
ω
2
∣
x
)
→
(
λ
21
−
λ
11
)
p
(
ω
1
∣
x
)
>
(
λ
12
−
λ
22
)
p
(
ω
2
∣
x
)
→
(
λ
21
−
λ
11
)
p
(
x
∣
ω
1
)
p
(
ω
1
)
>
(
λ
12
−
λ
22
)
p
(
x
∣
ω
2
)
p
(
ω
2
)
R(\alpha_1|\boldsymbol x) < R(\alpha_2|\boldsymbol x) \\ \to \lambda_{11}p(\omega_1|\boldsymbol x)+\lambda_{12}p(\omega_2|\boldsymbol x) <\lambda_{21}p(\omega_1|\boldsymbol x)+\lambda_{22}p(\omega_2|\boldsymbol x)\\ \to (\lambda_{21}-\lambda_{11})p(\omega_1|\boldsymbol x)>(\lambda_{12}-\lambda_{22})p(\omega_2|\boldsymbol x) \\ \to (\lambda_{21}-\lambda_{11})p(\boldsymbol x|\omega_1)p(\omega_1)>(\lambda_{12}-\lambda_{22})p(\boldsymbol x|\omega_2)p(\omega_2)
R(α1∣x)<R(α2∣x)→λ11p(ω1∣x)+λ12p(ω2∣x)<λ21p(ω1∣x)+λ22p(ω2∣x)→(λ21−λ11)p(ω1∣x)>(λ12−λ22)p(ω2∣x)→(λ21−λ11)p(x∣ω1)p(ω1)>(λ12−λ22)p(x∣ω2)p(ω2)
这里推出来的最后一个式子就是最后的判决为
ω
1
\omega_1
ω1需要满足的公式。我们和之前基于最小化误差概率的判决公式对比一下,发现其实多了一个风险来参与调节选择,由之前的似然概率,先验概率共同判断变成了现在的由误判风险,似然概率,先验概率三者一起判断。
这里为了便于理解,我们可以带点数进去算。
λ 11 \lambda_{11} λ11 | λ 12 \lambda_{12} λ12 | λ 21 \lambda_{21} λ21 | λ 22 \lambda_{22} λ22 |
---|---|---|---|
0 | 1 | 10 | 0 |
这里的设置是判决正确不产生任何风险,将类别 ω 2 \omega_2 ω2错判为 ω 1 \omega_1 ω1风险为1小于将类别 ω 1 \omega_1 ω1判为 ω 2 \omega_2 ω2的风险。
这时候计算一下
10
×
0.1
=
1
>
1
×
0.9
10 \times 0.1 = 1 >1 \times 0.9
10×0.1=1>1×0.9
所以即使类别状态
ω
2
\omega_2
ω2的似然概率和先验概率乘积更大,我们仍然选择的是判别为
ω
1
\omega_1
ω1,因为将
ω
1
\omega_1
ω1错判为
ω
2
\omega_2
ω2的风险太大了,即使也似然概率和先验概率较大也不足以承担。
最后介绍一下似然比,也是通过之前的公式推过来的。
(
λ
21
−
λ
11
)
p
(
x
∣
ω
1
)
p
(
ω
1
)
>
(
λ
12
−
λ
22
)
p
(
x
∣
ω
2
)
p
(
ω
2
)
→
p
(
x
∣
ω
1
)
p
(
x
∣
ω
2
)
>
λ
12
−
λ
22
λ
21
−
λ
11
p
(
ω
2
)
p
(
ω
1
)
(\lambda_{21}-\lambda_{11})p(\boldsymbol x|\omega_1)p(\omega_1)>(\lambda_{12}-\lambda_{22})p(\boldsymbol x|\omega_2)p(\omega_2) \\ \to \frac{p(\boldsymbol x|\omega_1)}{p(\boldsymbol x|\omega_2)} > \frac{\lambda_{12}-\lambda_{22}}{\lambda_{21}-\lambda_{11}}\frac{p(\omega_2)}{p(\omega_1)}
(λ21−λ11)p(x∣ω1)p(ω1)>(λ12−λ22)p(x∣ω2)p(ω2)→p(x∣ω2)p(x∣ω1)>λ21−λ11λ12−λ22p(ω1)p(ω2)
化成这个公式之后,我们就可以统一一下格式了,最小化误差概率和最小化风险相差的只是一个风险比值。那么贝叶斯决策规则就可以解释成如果似然比超过一个不依赖于
x
\boldsymbol x
x的阈值即可。
好啦,课上的内容结束啦,下次上课继续~~~~。