监督学习:基础方法与参数模型解析
1. 决策树的过拟合与控制策略
在监督学习中,决策树是一种常用的模型。当决策树完全生长时,就如同在 k - NN 中选择 k = 1 的情况,所有训练数据点都会被正确预测,因为每个区域仅包含具有相同输出的数据点。以音乐分类问题为例,会得到适应单个训练数据点的细小区域;对于汽车停车距离问题,则会得到一条精确穿过观测值的非常不规则的线。尽管这些树在训练数据上表现出色,但对于新的、未见过的数据,它们可能并非最佳模型,这种现象被称为过拟合。
为了减轻决策树的过拟合问题,可以使用更浅的树。这样会得到更少、更大的区域,增强平均效果,使决策边界对训练数据中的噪声适应性降低。树的最优大小取决于问题的诸多特性,是灵活性和刚性之间的权衡。
用户可以通过不同策略控制树的生长:
- 调整停止准则 :这是最直接的策略,即确定在某个节点不再进行进一步分裂应满足的条件。例如,若对应区域中的训练数据点少于一定数量,就不再尝试进一步分裂;或者像图 2.11 所示,当达到一定深度时停止分裂。
- 剪枝 :先让树完全生长,然后在后续处理步骤中将其修剪成较小的树。不过,这里暂不深入讨论剪枝。
2. 线性回归模型
2.1 线性回归概述
回归是监督学习的两大基本任务之一(另一个是分类)。线性回归模型或许是解决回归问题历史上最流行的方法,尽管相对简单,但却非常实用,是深度学习等更高级方法的重要基石。
回归的核心是学习输入变量 $x = [x_1 x_2 … x_p]^T$ 与数值输出变量 $y$ 之间的关系。输入可以是分类变量
超级会员免费看
订阅专栏 解锁全文
3728

被折叠的 条评论
为什么被折叠?



