2.6 错误率的计算
- 错误率反映了分类问题固有复杂性的程度
- 在分类器设计出来后, 通常是以错误率大小来衡量其性能优劣
- 通常是以错误率大小作为比较方案的标准
P ( e ) = P ( ω 1 ) ∫ R 2 P ( x ∣ ω 1 ) d x + P ( ω 2 ) ∫ R 1 P ( x ∣ ω 2 ) d x = P ( ω 1 ) P 1 ( e ) + P ( ω 2 ) P 2 ( e ) ( 2 − 96 ) P(e)=P(\omega_1)\int_{R_2} P(x|\omega_1)dx+P(\omega_2)\int_{R_1} P(x|\omega_2)dx \newline =P(\omega_1)P_1(e)+P(\omega_2)P_2(e) \quad(2-96) P(e)=P(ω1)∫R2P(x∣ω1)dx+P(ω2)∫R1P(x∣ω2)dx=P(ω1)P1(e)+P(ω2)P2(e)(2−96)- 实际中,按理论公式计算错误率很困难
由于错误率在模式识别中的重要性及计算上的复杂性,因此在处理实际问题时的三种方法:
- 按理论公式计算
- 计算错误率上界
- 实验估计
2.6.1 正态分布且各类协方差矩阵相等情况下错误率的计算
在最小错误率贝叶斯决策中:
h ( x ) = − ln l ( x ) = − ln p ( x ∣ ω 1 ) + ln p ( x ∣ ω 2 ) ≶ ln P ( ω 1 ) P ( ω 2 ) ,则 x ∈ { ω 1 ω 2 h(x)=-\ln l(x)=-\ln p(x|\omega_1)+\ln p(x|\omega_2) \lessgtr \ln \dfrac{P(\omega_1)}{P(\omega_2)},则x\isin\begin{cases}\omega_1 \\ \omega_2 \end{cases} h(x)=−lnl(x)=−lnp(x∣ω1)+lnp(x∣ω2)≶lnP(ω2)P(ω1),则x∈{
ω1ω2
因此 h ( x ) h(x) h(x)是随机变量,记分布密度函数为 p ( h ∣ ω 1 ) p(h|\omega_1) p(h∣ω1)。
(2-96)可表示为:
P 1 ( e ) = ∫ R 2 p ( x ∣ ω 1 ) d x = ∫ t + ∞ p ( h ∣ ω 1 ) d h ( 2 − 97 ) P 2 ( e ) = ∫ R 1 p ( x ∣ ω 2 ) d x = ∫ − ∞ t p ( h ∣ ω 2 ) d h ( 2 − 97 ) P_1(e)=\int_{R_2}p(x|\omega_1)dx = \int_t^{+\infin}p(h|\omega_1)dh \quad(2-97) \newline P_2(e)=\int_{R_1}p(x|\omega_2)dx = \int_{-\infin}^t p(h|\omega_2)dh \quad(2-97) P1(e)=∫R2p(x∣ω1)dx=∫t+∞p(h∣ω1)dh(2−97)P2(e)=∫R1p(x∣ω2)dx=∫−∞tp(h∣ω2)dh(2−97)
其中
t = ln P ( ω 1 ) P ( ω 2 ) t=\ln \dfrac{P(\omega_1)}{P(\omega_2)} t=lnP(ω2)P(ω1)
这里和 Neyman-Pearson 决策里的似然比密度函数 p ( l ∣ ω 2 ) p(l|\omega_2) p(l∣ω2) 一样,是将变量 x x x 换成了 h h h 因此积分的区域也发生了相应的变化。
考虑在正态分布时的情况,决策规则可以写成:
h ( x ) = − ln l ( x ) = − ln p ( x ∣ ω 1 ) + ln p ( x ∣ ω 2 ) = − [ − 1 2 ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) − d 2 ln 2 π − 1 2 ln ∣ Σ 1 ∣ ] + [ − 1 2 ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) − d 2 ln 2 π − 1 2 ln ∣ Σ 2 ∣ ] = 1 2 ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) − 1 2 ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) + 1 2 ln ∣ Σ 1 ∣ ∣ Σ 2 ∣ ≶ ln P ( ω 1 ) P ( ω 2 ) → x ∈ { ω 1 ω 2 ( 2 − 100 ) h(x)=-\ln l(x)=-\ln p(x|\omega_1)+\ln p(x|\omega_2) \newline =-[-\dfrac{1}{2}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)-\dfrac{d}{2}\ln 2\pi-\dfrac{1}{2}\ln|\Sigma_1|] \newline +[-\dfrac{1}{2}(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)-\dfrac{d}{2}\ln 2\pi-\dfrac{1}{2}\ln|\Sigma_2|] \newline =\dfrac{1}{2}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)-\dfrac{1}{2}(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)+\dfrac{1}{2}\ln \dfrac{|\Sigma_1|}{|\Sigma_2|} \newline \lessgtr \ln \dfrac{P(\omega_1)}{P(\omega_2)} \rarr x\isin\begin{cases}\omega_1 \\ \omega_2 \end{cases} \quad(2-100) h(x)=−lnl(x)=−lnp(x∣ω1)+lnp(x∣ω2)=−[−21(x−μ1)TΣ1−1(x−μ1)−2dln2π−21ln∣Σ1∣]+[−21(x−μ2)TΣ2−1(x−μ2)−2dln2π−21ln∣Σ2∣]=21(x−μ1)TΣ1−