4、监督学习:基础方法与参数模型解析

监督学习:基础方法与参数模型解析

1. 决策树的过拟合与控制策略

在监督学习中,决策树是一种常用的模型。当决策树完全生长时,就如同在 k - NN 中选择 k = 1 的情况,所有训练数据点都会被正确预测,因为每个区域仅包含具有相同输出的数据点。以音乐分类问题为例,会得到适应单个训练数据点的细小区域;对于汽车停车距离问题,则会得到一条精确穿过观测值的非常不规则的线。尽管这些树在训练数据上表现出色,但对于新的、未见过的数据,它们可能并非最佳模型,这种现象被称为过拟合。

为了减轻决策树的过拟合问题,可以使用更浅的树。这样会得到更少、更大的区域,增强平均效果,使决策边界对训练数据中的噪声适应性降低。树的最优大小取决于问题的诸多特性,是灵活性和刚性之间的权衡。

用户可以通过不同策略控制树的生长:
- 调整停止准则 :这是最直接的策略,即确定在某个节点不再进行进一步分裂应满足的条件。例如,若对应区域中的训练数据点少于一定数量,就不再尝试进一步分裂;或者像图 2.11 所示,当达到一定深度时停止分裂。
- 剪枝 :先让树完全生长,然后在后续处理步骤中将其修剪成较小的树。不过,这里暂不深入讨论剪枝。

2. 线性回归模型

2.1 线性回归概述

回归是监督学习的两大基本任务之一(另一个是分类)。线性回归模型或许是解决回归问题历史上最流行的方法,尽管相对简单,但却非常实用,是深度学习等更高级方法的重要基石。

回归的核心是学习输入变量 $x = [x_1 x_2 … x_p]^T$ 与数值输出变量 $y$ 之间的关系。输入可以是分类变量

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值