分类
根据输入输出类型的不同,预测问题可以分为以下三类。
分类问题:输出变量为有限个离散变量,当个数为 2 时即为最简单的二分类问题;
回归问题:输入变量和输出变量均为连续变量;
标注问题:输入变量和输出变量均为变量序列。
按照任务训练特点分类:
监督学习:基于已知类别的训练数据进行学习;
无监督学习:基于未知类别的训练数据进行学习;
半监督学习:同时使用已知类别和未知类别的训练数据进行学习。
误差性能
在机器学习中,误差被定义为学习器的实际预测输出与样本真实输出之间的差异。
在分类问题中,常用的误差函数是错误率,即分类错误的样本占全部样本的比例。
误差可以进一步分为训练误差和测试误差两类。
训练误差指的是学习器在训练数据集上的误差,也称经验误差(老数据);
测试误差指的是学习器在新样本上的误差,也称泛化误差(新数据)。
过拟合和欠拟合
如果接触的外国人较少,从没见过双眼皮的韩国人,思维中就难免出现“单眼皮都是韩国人”的错误定式,这就是典型的