《模式分类》读书笔记之一:贝叶斯决策论

基于贝叶斯决策的鱼类分类器
本文探讨了如何运用贝叶斯决策原理设计一个用于区分鲈鱼和鲑鱼的分类器。通过设定先验概率和特征概率密度函数,实现了依据观测特征计算后验概率并作出分类决策的过程。

问题:设计一个分类器来区分鲈鱼和鲑鱼(两分类问题)。

具体而言,我们得找个方法来判断下一条传送带上传送过来的鱼的类别。如果用$w$表示状态类别,可设$w_{1}$表示鲈鱼,$w_{2}$表示鲑鱼。由于类别不确定,可设$w$是一个由概率来描述的随机变量。

1.两分类问题的贝叶斯决策

    首先,可以根据已知信息假定下一条鱼是鲈鱼的“先验概率”为$P(w_{1})$,下一条鱼是鲑鱼的“先验概率”是$P(w_{2})$,则$P(w_{1})+P(w_{2})=1$(当然,在已知信息很少的情况下,可以假定$P(w_{1})=P(w_{2})=0.5$)。

    显然,我们不能只根据先验概率判断下一条鱼的类别,因为这样对每一条传送过来的鱼,我们都将得到相同的结果(显然这是与实际不符的,很可能出错的),而若是这样,我们也并没有利用现有的、传送过来的鱼的信息(如光泽度等),就如“说美帝好的都是汉奸”这个谬误的论断,因为我们下的论断是“凡是传送过来的都是鲑鱼”(假设鲑鱼的先验概率比较大)。所以更合理的判断规则是,如果我们观察到正传送过来的鱼的特征$x$,我们就可以计算这条鱼可能是鲈鱼的概率$P(w_{1}|x)$和可能是鲑鱼的概率$P(w_{2}|x)$;若$P(w_{1}|x)>P(w_{2}|x)$,则可判断这条鱼是鲈鱼,反之是鲑鱼。

    对于特征$x$,假定其为一个连续随机变量,其分布取决于类别状态,表示成$p(x|w)$,即类别状态为$w$时的$x$的概率密度函数。于是$p(x|w_{1})$与$p(x|w_{2})$之间的区别就表示了鲈鱼和鲑鱼之间特征(如光泽度)的区别。

    由条件概率的定义可知,处于类别$w_{j}$且具有特征值$x$的模式的联合概率密度可写成两种形式:

\begin{equation} \label{equone} p(w_{j},x)=P(w_{j}|x)p(x)=p(x|w_{j})P(w_{j}).\end{equation}转换一下,即为著名的贝叶斯公式:

\begin{equation} \label{equtwo} P(w_{j}|x)=\frac{p(x|w_{j})P(w_{j})}{\sum_{j=1}^{2}p(x|w_{j})P({w_{j}})} \end{equation} 

    通过以上公式,我们就可以通过观察得到的特征$x$和先验概率$P(w_{j})$及概率密度函数$p(x|w_{j})$来计算后验概率$P(w_{j}|x)$。

    下面来验证一下为什么$P(w_{1}|x)>P(w_{2}|x)$时,判断真实类别是$w_{1}$是一种好的决策(证明来源于《模式识别》p9):

证明:假设$R_1$是$w_1$类对应的特征空间,(同理,$R_2$对应于$w_{2}$),其中$R_{1} \cap R_{2} = \emptyset$,且$R_{1}\cup R_{2} = \mathbb{R}$($\mathbb{R}$表示$x$的所有可能值的集合。当然,可以这样定义\(R_{1}\)和$R_{2}$:$R_{1}=\{x \in \mathbb{R} | p(x|w_{1}) \ge p(x|w_{2})\},R_{2} = \{x \in \mathbb{R}| p(x|w_{1})<p(x|w_{2})\}$);当$x \in R_{2}$而真实类别是$w_{1}$时(或相反)就产生了错误

\begin{equation}\label{equthree} \begin{split} P_{e} & =  P(x \in R_{2},w_{1})+P(x \in R_{1}, w_{2})\\ & =  \int_{R_{2}}P(w_{1}|x)p(x) dx + \int_{R_{1}}P(w_{2}|x)p(x) dx \end{split} \end{equation}

又由条件概率的定义可得:

\begin{equation} \label{equfour} P(w_{1}) = \int_{R_{1}}P(w_{1}|x)p(x) dx + \int_{R_{2}}P(w_{1}|x)p(x) dx \end{equation}

结合式(\ref{equthree})和式(\ref{equfour})可得:

\begin{equation} \label{equfive} P_{e}= P(w_{1})-\int_{R_{1}}(P(w_{1}|x)-P(w_{2}|x))p(x) dx \end{equation}

由上式可以看出,我们选择的决策方式是合理的。

转载于:https://www.cnblogs.com/chaosstar/archive/2012/06/06/2538820.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值