机器学习中的分类器技术解析
在机器学习领域,分类器的构建和优化是核心任务之一。本文将深入探讨几种常见的分类器技术,包括决策树、集成学习、提升算法以及支持向量机,并分析它们的原理、应用和优缺点。
决策树与异或问题
线性分类器在处理异或(XOR)问题时存在局限性,因为无法用一条直线将两个区域划分开来。而决策树则具备识别异或的能力。例如,一个两层的决策树可以完成这个任务。在根节点测试变量 A 的真假后,第二层基于 A 的条件对变量 B 进行测试,这样四个叶子节点就能分别对应不同的象限,实现正确分类。
然而,找到能识别异或的决策树并非易事。即使选择了正确的根节点,也难以直观地看到分类效果的提升。例如,选择“x > 0?”作为根节点,在两侧都不会明显提高分类纯度,因为信息增益为零。这表明贪心决策树构建启发式方法在处理异或这类问题时会失效,需要更复杂且计算成本更高的树构建程序,就像计算机象棋程序那样进行前瞻性评估。
决策树集成
在任何训练集 S 上都可以构建大量可能的决策树。如果不断细化直到所有叶子节点都是纯的,每棵树都能完美分类训练示例。因此,可以构建数百甚至数千棵不同的树,对查询项 q 进行评估并返回可能的标签。通过让每棵树独立投票,我们可以更有信心地认为最常见的标签就是正确的标签。
为避免群体思维,决策树需要具有多样性。反复使用确定性的构建程序来寻找最佳树是没有意义的,因为它们都会相同。更好的方法是在每个树节点随机选择一个新的分割维度,然后为该变量找到最佳的阈值来定义谓词。但即使采用随机维度选择,生成的树通常也具有高度相关性。一种更好的方法是装袋(bagging),即在相对较小的随机子集上构建尽可能好的树。这样得到的
主流分类器技术详解与对比
超级会员免费看
订阅专栏 解锁全文
9万+

被折叠的 条评论
为什么被折叠?



