不确定性下的集成学习:模糊性与泛化能力的探索
在机器学习的分类问题中,样本的模糊性、分类器的泛化能力以及它们之间的关系是非常重要的研究方向。本文将深入探讨这些方面,包括分治策略、模糊K -NN分类器的模糊性影响因素、泛化与模糊性的关系以及相关实验结果。
1. 分治策略
实验观察发现,训练样本的模糊性越大,分类错误的风险就越高;而当训练样本的模糊性在统计上变小时,风险相对降低。基于此,对于大多数分类问题,模糊性较大的样本比模糊性较小的样本更难正确分类,边界点比内部点更难分类,但边界点通常更重要。
分治策略的核心思想是使用普通分类器处理模糊性较小的样本,使用专门训练的分类器处理模糊性较高的样本。具体操作如下:
- 样本分组 :根据模糊性的大小,将所有样本分为高模糊性和低模糊性两组。
- 实验验证 :对模拟数据和真实数据集进行大量实验,验证两组的性能(正确分类率)差异。例如,在Ripley、Diabetes、Flare Solar和German数据集上,实验结果表明,对于任何邻居数量K(1 < K < 50),两组的差异都很显著。
分治策略让我们更加关注高模糊性样本,并且即使使用简单训练的分类器,低模糊性样本的分类也很可能是正确的。
2. 加权指数m对模糊K -NN分类器模糊性的影响
模糊K -NN分类器对样本的输出是一个隶属度向量,每个分量取决于加权指数参数m(m > 1)。由于分类器的模糊性是基于隶属度向量计算的,因此模糊性会随着参数m的值而变化。当m逐渐趋近于1时,模糊K -NN趋近于传统K -NN。 <
超级会员免费看
订阅专栏 解锁全文
1418

被折叠的 条评论
为什么被折叠?



