文章目录
error的来源
从上节课测试集数据来看,更复杂的模型并不能给测试集带来更好的效果,而这些 E r r o r Error Error 的主要有两个来源,分别是 b i a s bias bias 和 v a r i a n c e variance variance。
了解error的来源,我们才能找到提升模型能力的方向,然后再使用对应的方法。
(顺便说一句,我写这个笔记也参考了很多其他人的笔记。LeeML-Notes里面有一篇关于误差,偏差和方差区别的引用,我觉得很好,所以我也贴出来记录一下机器学习中的Bias(偏差),Error(误差),和Variance(方差)有什么区别和联系?)
估测
假设真实的模型为 f ^ \hat f f^ , 如果我们知道 f ^ \hat f f^ 模型,那是最好不过了,但是 f ^ \hat f f^只有任天堂公司才知道。
所以我们只能通过收集 Pokemon精灵的数据,然后通过 step1~step3 训练得到我们的理想模型 f ∗ f^* f∗,但这其实是 f ^ \hat f f^ 的一个预估。他们之间有个距离,这个距离既可能来自于bias,也可能来自于variance。这个过程就像打靶, f ^ \hat f f^就是我们的靶心, f ∗ f^* f∗就是我们投掷的结果。如上图所示, f ^ \hat f f^与 f ∗ f^*