2-1.监督学习简单理解
一、什么是监督学习
① 监督学习的基本任务:
1 - 分类:做选择题,返回的结果为某一种类型;
2 - 回归:让模型预测的结果是一段区间,连续值。
②训练集与测试集:
监督学习就相当于学生学习参加考试的过程一样, 先从作业中学习知识, 即"训练集", 写完作业检查对得出正确率的过程可以称为"训练精度";
用于考试的试卷称为"测试集", 参加考试获得的分数就称为"测试精度",考试的分数高(即测试精度较高), 那么可以说明该模型"泛化(对没见过的数据的准确预测能力)"比较强,反之即泛化不强。
③拟合:
拟合的过程:在一个图像中,标出数据点后,构造一个函数模型使其以一条光滑的曲线将个个数据点连接起来。
拟合的两种情况:
1-过拟合: 字面上理解,“过分地拟合”, 构造出来的模型的曲线不够光滑,严格地穿过每一个数据点,使得模型过于复杂,不具有参考性。举例说明:假设构建一个分类树叶的模型,现实中有的树叶有锯齿,有的没有,如果对这些相关的特征不加以筛选,每个都赋予相同的权重,那么绘制出来的函数曲线就会比较复杂,结果可能会是明明是树叶,但却因为没有锯齿而没有被分类为树叶这样不符合实际的情况。过拟合现象实际上是过分依赖训练集数据的表现,可能能够较为精确地预测训练集数据,但对测试集数据泛化精度较差(平时写作业挺能的,一到考试纸老虎)。
如上图所示,模型曲线一板一眼地穿过了每一个数据点,这称为过拟合现象。
2-欠拟合: 构造出来的模型根本不能够贴合数据点,使得模型过于简单,没有实际参考意义,这是因为给模型训练的数据太少,使得其出现泛化精度差的现象。举例说明:还是拿树叶来说,如果训练得不够,那么可能会出现这样的预测现象:"只要是绿色的,带有叶柄就一定是树叶"或者拿FPS玩家的梗:“单发,有镜子,是狙没错了(doge)”, 实则可能是大炮(doge*3)…欠拟合现象即模型学习的数据太少导致的偏差(平时不学习, 作业写不好, 更别指望考试了).
图自优快云用户 – 谦卑