16、统计模式识别中的非参数分类与误差估计

统计模式识别中的非参数分类与误差估计

1. 多类问题的NN误差

多类问题的最近邻(NN)误差可以通过类似的方法从特定公式推导得出。结果为:
[E(\boldsymbol{\theta}_{..}) = \frac{1}{N} + P_1 E_X\left[ |\mathbf{A}|^{-\frac{1}{2}} \text{tr}(\mathbf{A}\mathbf{B}_L(\mathbf{X})) \right]]
其中,这里的 (P_1) 与另一相关公式中的 (P_1) 相同,这意味着样本大小对偏差的影响不依赖于类别数量。

2. 误差估计方法概述

我们将使用非参数密度估计来设计分类器并估计分类误差,主要讨论Parzen和体积k近邻(kNN)两种方法。由于Parzen方法的分析相对简单,我们将先详细分析Parzen方法,再通过与Parzen方法对比来讨论kNN方法。

2.1 Parzen方法中的核大小影响

在Parzen密度估计中,核大小的选择是一个关键问题。密度估计和分类是不同的任务,适用于密度估计的最优解可能不适用于分类。例如,在密度估计中,均方误差准则常用于寻找最优体积,该准则更侧重于高密度区域;而在分类中,两个密度尾部的关系更为重要,均方误差可能不是合适的准则。

为了确定最优核大小,一种方法是通过实验。假设采用特定的核函数,以 (r) 作为大小控制参数,我们可以对不同的 (r) 值使用L和R方法重复估计分类误差,并绘制误差与 (r) 的关系图。但这种方法的主要缺点是,对于每个 (r) 值,估计过程都必须完全重复。

2.1.1 实验4:Parzen误差估计 </
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值