决策树与最近邻算法详解
1. 决策树
决策树在机器学习中是一种重要的模型,但学习决策树存在计算难题,因此有许多启发式训练方法被提出。
- 常见算法 :众多决策树学习算法,如 ID3 和 C4.5 由 Quinlan 在 1986 年提出;CART 算法则是 Breiman、Friedman、Olshen 和 Stone 在 1984 年提出;随机森林由 Breiman 在 2001 年引入。
- 训练难度证明 :Hyafil 和 Rivest 在 1976 年给出了训练决策树难度的证明。
1.1 练习题分析
- 证明二进制分类器与决策树的关系 :
- 要证明任何二进制分类器 $h : {0,1}^d \to {0,1}$ 都可以实现为高度至多为 $d + 1$ 的决策树,内部节点形式为 $(x_i = 0?)$,其中 $i \in {1,…,d}$。
- 由此可推断出在域 ${0,1}^d$ 上决策树类的 VC 维是 $2d$。
- ID3 算法的次优性 :
- 给定训练集 $X = {0,1}^3$ 和 $Y = {0,1}$,包含 $((1,1,1),1)$、$((1,0,0),1)$、$((1,1,0),0)$、$((0,0,1),0)$ 这些样本。
- 当使用 ID3 算法构建深度为 2 的决策树时
超级会员免费看
订阅专栏 解锁全文
897

被折叠的 条评论
为什么被折叠?



