机器学习中的提升技术变体与实用要点
提升技术的变体
提升技术的核心是将多个互补的不完美分类器组合起来。除了常见的装袋(Bagging)和自适应提升(Adaboost),还有许多其他变体。
- 随机化属性集 :传统的提升方法通常从不同的训练子集诱导分类器,而随机化属性集则使用相同的训练示例,但每次用不同的属性子集来描述这些示例。具体步骤如下:
- 输入训练示例集 $T$ 和用于描述它们的属性集 $A$。
- 选择 $N$ 个随机的属性子集 $A_i \subseteq A$。
- 从由 $A_i$ 中的属性描述的 $T$ 中的示例诱导第 $i$ 个分类器。
- 通过加权多数投票组合分类器的输出,权重可以通过感知机学习等方法获得。
这种方法适用于具有大量属性且大多数属性可能无关或冗余的领域。使用不太有价值的属性集诱导的分类器通常分类性能较差,会获得较低(甚至负)的权重。它还可以与经典的装袋方法结合,即每个分类器使用不同的示例集和不同的属性集。
- 非同质提升 :之前介绍的提升方法都假设使用相同的归纳技术从不同的数据诱导单个分类器。而非同质提升则相反,它从相同的数据使用不同的机器学习技术诱导每个分类器,然后通过加权多数投票组合分类器的输出。
分类器的错误主要分为两类:一类是由可用数据的方差引起的,不同的训练集会诱导出不同的分类器,导致不同的错误;另一类是分类器固有的偏差,例如线性分类器在正负示例的决
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



