非参数分类与干扰抑制算法研究
非参数分类方法
背景与动机
在模式分类领域,k - 近邻分类规则(k - NNR)是一种简单且强大的非参数分类方法。当样本数量 N 和近邻数量 k 都趋于无穷大,且满足 k/N→0 时,k - NNR 的错误率趋近于最优贝叶斯错误率。然而,在有限样本情况下,k - NNR 并非利用未分类模式邻域信息的最优方式,这常导致分类精度显著下降,且其性能还易受离群值影响。
为改善小数据集情况下的 k - NN 分类性能,研究者们对寻找 k - NNR 的变体产生了浓厚兴趣。Mitani 和 Hamamoto 提出了基于局部均值向量的非参数分类方法,该方法不仅克服了离群值的影响,还在小训练样本规模情况下能取得良好的分类性能。不过,该方法在多数情况下更侧重于利用每个类中样本的局部均值信息,而较少利用相应类均值信息。因此,设计一种同时利用测试模式在每个类中最近邻的局部均值信息和相应类均值知识的分类器是合理的。
基于局部均值和类均值的非参数分类算法
算法描述
对于 N 个可用的标记原型,设 $N_1, \cdots, N_M$ 分别是属于类别 $\omega_1, \omega_2, \cdots, \omega_M$ 的样本数量。设 $x_j^{(1)}, \cdots, x_j^{(r)}$ 表示未标记模式 x 在第 j 类原型中的 r 个最近邻,$X_j = {x_{j_i} | i = 1, \cdots, N_j}$ 是来自类别 $\omega_j$ 的原型集,$\mu_j$ 是类别 $\omega_j$ 的类均值向量:
$\mu_j = \frac{1}{N_j} \sum_
超级会员免费看
订阅专栏 解锁全文
1688

被折叠的 条评论
为什么被折叠?



