机器学习基础概念与通用原则解析
1. 机器学习基础概念
1.1 参数模型与非参数模型
在机器学习中,模型可分为参数模型和非参数模型。参数模型可以通过固定数量的参数来完全确定,而非参数模型则不能。例如,决策树就是典型的非参数模型。使用决策树时,我们不预先假定模型的函数形式,并且树的大小通常也不固定。若有更多的训练数据,就可能构建出更大的决策树。另一个著名的非参数模型是直方图,用它来估计数据分布时,我们不限制分布的形状,而且随着样本增多,直方图会发生显著变化。
一般来说,处理参数模型比非参数模型更容易,因为对于任何参数模型,我们总是可以专注于估计一组固定的参数。参数估计通常比在不知道模型形式的情况下估计任意模型要简单得多。
1.2 过拟合与欠拟合
所有机器学习方法都依赖于训练数据。直观地说,训练数据包含了我们希望用模型学习的某些规律的重要信息,我们非正式地称其为信号成分;另一方面,训练数据也不可避免地包含一些无关甚至干扰信息,称为噪声成分。噪声的一个主要来源是任何有限随机样本集所表现出的采样变化。即使从同一分布中随机抽取两次样本,我们也不会得到完全相同的样本,这种变化可以被视为收集数据中的噪声成分。当然,噪声也可能来自测量或记录误差。
一般来说,我们可以将任何收集到的训练数据概念性地表示为两个成分的组合:
[数据 = 信号 + 噪声]
一旦有了这种概念性的认识,我们就能很容易理解机器学习中的两个重要概念:欠拟合和过拟合。
1.2.1 欠拟合
如果使用的模型过于简单,无法捕捉信号成分中的所有规律,那么即使在训练数据中,学习到的模型也会产生非常差的
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



