后验概率最大化和损失风险最小化等价关系的推导

最新推荐文章于 2025-04-29 17:14:01 发布

原创最新推荐文章于 2025-04-29 17:14:01 发布 · 878 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

机器学习笔记专栏收录该内容

8 篇文章

订阅专栏

本文主要推导后验概率最大化和损失风险最小化的等价关系。朴素贝叶斯法采用后验概率最大化准则，通过选择0 - 1损失函数评价分类损失，展开期望风险函数，经一系列推导，最终得出后验概率最大化的准则。

后验概率最大化和损失风险最小化等价关系的推导

个人理解，敬请指正

朴素贝叶斯法将实例分到后验概率最大的类中，也就是对于给定的输入 $x=(x^{(1)},x^{(2)},...x^{(n)})$ ,取决策结果为
$=\underset{c_k}{argmax}P(Y=c_k|X=x),k=1,2,...,K$
其利用的准则就是后验概率最大化准则

后验概率最大化和期望风险最小化是等价关系，前者可由后者推导而来

推导过程

选择0-1损失函数来评价分类的损失
$\left\{ \begin{aligned} 1,\ Y\neq{f(X)}\\ 0,\ Y={f(X)} \end{aligned} \right.$
此时期望风险函数如下
$R_{exp}(f)=E[L(Y,f(X))]$
损失函数中有两个变量 $X 和 Y$ ,则上述期望风险是联合期望风险。根据离散型的联合期望公式将其展开如下：
$R_{exp}(f)=\sum_X\sum_YL(Y,f(X))P(Y,X)$

将联合概率分布 $P (X, Y)$ 展开有
$R_{exp}(f)=\sum_X(\sum_YL(Y,f(X))P(Y|X))P(X)$
将Y的所有取值带入有
$R_{exp}(f)=\sum_X(\sum_{k=1}^KL(c_k,f(X))P(c_k|X))P(X)$
注意到等式右边括号的内容可以看作是一个关于 $X$ 的函数，而再结合括号外面部分可知等式右边实际上在对括号里面的内容关于 $X$ 求期望，于是我们可以把公式转化成下面这样
$R_{exp}(f)=E_X(\sum_{k=1}^KL(c_k,f(X))P(c_k|X))$

其中 $∑k=1KL(ck,f(X)P(cK∣X)\sum_{k=1}^KL(c_k,f(X)P(c_K|X)$ 就是在给定某个X的情况下对 $L (Y, f (X))$ 求期望，也就是条件期望

条件期望再对条件求期望就是联合期望

我们的目的是使期望风险 $R_{exp}(f)$ 最小化，也就是 $∑k=1KL(ck,f(X))P(ck∣X)\sum_{k=1}^KL(c_k,f(X))P(c_k|X)$ 关于X的期望最小

那么我们只需要使给定的每一个 $X = x ，$ $∑k=1KL(ck,f(X=x))P(ck∣X=X)\sum_{k=1}^KL(c_k,f(X=x))P(c_k|X=X)$ 的值都达到极小，这样最后对 $X$ 求得的期望风险 $R_{exp}(f)$ 就是最小的了

给定 $X = x$ 的条件下， $f (X = x)$ 也确定为 $y$ ，于是有
$\underset{y\in{\mathcal{Y}}}{argmin}\sum_{k=1}^KL(c_k,y)P(c_k|X=x)$
分别考虑 $c_k$ 取值等于 $y$ 的情况以及 $c_k$ 取值不等于y的情况，将求和分开有
$\underset{y\in{\mathcal{Y}}}{argmin}(\sum_{k=1}^KL(c_k,y)P(y=c_k|X=x)+\sum_{k=1}^KL(c_k,y)P(y\neq{c_k}|X=x))$
又因为在 $y=c_k$ 的情况下， $L(c_k,y)=0$ ，在 $y≠cky\neq{c_k}$ 时， $L(c_k,y)=1$ ，则
$\underset{y\in{\mathcal{Y}}}{argmin}\sum_{k=1}^KP(y\neq{c_k}|X=x)$
在 $y$ 给定时，对于不同的 $c_k$ ，能与 $y$ 相等的至多只有一个，则有下式
$\sum_{k=1}^KP(y\neq{c_k}|X=x)+P(y={c_k}|X=x)=1$
于是
$\begin{aligned} f(x) &=\underset{y\in{\mathcal{Y}}}{argmin}\sum_{k=1}^KP(y\neq{c_k}|X=x)\\ &= \underset{y\in{\mathcal{Y}}}{argmin}(1-P(y={c_k}|X=x))\\ &=\underset{y\in{\mathcal{Y}}}{agrmax}P(y=c_k|X=x)\\ &=\underset{c_k\in{\mathcal{Y}}}{agrmax}P(c_k|X=x) \end{aligned}$
最终我们得到了后验概率最大化的准则
$\underset{c_k}{argmax}P(Y=c_k|X=x)$