决策树算法:原理、应用与挑战
1. 非参数算法的问题
许多非参数算法面临一些共同问题。由于需要保留每一个样本,导致需求增加;同时,搜索速度变慢,使得分类过程也随之变慢。
2. 决策树简介
决策树是另一种非参数分类方法,它基于样本集中的点构建数据结构,用于对新的点进行分类。下面我们先了解树的基本概念,再探讨如何构建决策树。
2.1 树的基本概念
我们可以通过熟悉的“20 个问题”游戏来理解决策树的基本思想。在这个游戏中,一名玩家(选择者)想出一个特定的目标对象,通常是一个人、一个地方或一件事物。另一名玩家(猜测者)则提出一系列是非问题。如果猜测者能在 20 个或更少的问题内正确识别目标,就获胜。这个游戏经久不衰的原因之一是,用如此少量的简单问题将大量可能的人、地方和事物缩小到一个特定实例很有趣(也许令人惊讶的是,20 个是非问题只能区分 100 多万个不同的目标)。
我们可以用图形形式绘制一个典型的“20 个问题”游戏,如下所示:
graph TD;
A[开始] --> B{问题 1};
B -->|是| C{问题 2};
B -->|否| D{问题 3};
C -->|是| E[答案 1];
C -->|否| F[答案 2];
D -->|是| G[答案 3];
D -->|否| H[答案 4];
我们把这样的结构称为树,因为它看起来有点像一棵倒置的树。树有一些相关术语值得了解:
- <
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



