统计模式识别中的非参数分类与误差估计
1. 多类问题的NN误差
多类问题的最近邻(NN)误差可以通过类似的方法从特定公式推导得出。结果为:
[E(\boldsymbol{\theta}_{..}) = \frac{1}{N} + P_1 E_X\left[ |\mathbf{A}|^{-\frac{1}{2}} \text{tr}(\mathbf{A}\mathbf{B}_L(\mathbf{X})) \right]]
其中,这里的 (P_1) 与另一相关公式中的 (P_1) 相同,这意味着样本大小对偏差的影响不依赖于类别数量。
2. 误差估计方法概述
我们将使用非参数密度估计来设计分类器并估计分类误差,主要讨论Parzen和体积k近邻(kNN)两种方法。由于Parzen方法的分析相对简单,我们将先详细分析Parzen方法,再通过与Parzen方法对比来讨论kNN方法。
2.1 Parzen方法中的核大小影响
在Parzen密度估计中,核大小的选择是一个关键问题。密度估计和分类是不同的任务,适用于密度估计的最优解可能不适用于分类。例如,在密度估计中,均方误差准则常用于寻找最优体积,该准则更侧重于高密度区域;而在分类中,两个密度尾部的关系更为重要,均方误差可能不是合适的准则。
为了确定最优核大小,一种方法是通过实验。假设采用特定的核函数,以 (r) 作为大小控制参数,我们可以对不同的 (r) 值使用L和R方法重复估计分类误差,并绘制误差与 (r) 的关系图。但这种方法的主要缺点是,对于每个 (r) 值,估计过程都必须完全重复。
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



