一、分类与回归
监督机器学习问题主要有两种,分别叫作分类(classification)与回归(regression)。
区分分类任务和回归任务有一个简单方法,就是问一个问题:输出是否具有某种连续性。 如果在可能的结果之间具有连续性,那么它就是一个回归问题;不存在连续性,则一般是分类问题。
二、泛化、过拟合与欠拟合
在监督学习中,在训练数据上构建模型,然后能够对没见过的新数据(这些新数据与训练集具有相同的特性)做出准确预测。如果模型能够对没见过的数据做出准确预测,我们就说它能够从训练集泛化(generalize)到测试集。我们想要构建一个泛化精度尽可能高的模型。判断一个算法在新数据上表现好坏的唯一度量,就是在测试集上的评估。
过拟合(Overfitting)是指模型在训练数据上表现优异,但在新的数据集上性能不佳的现象。这是因为过拟合模型过度关注训练数据