[机器学习-3]过拟合(Overfit)
What’s overfitting
The subjects performs an action which leads to a good
outcome and thereby generalizes it as cause and effect: the
action will always give good results. Having overfit the data, the
subject compulsively engages in that activity
通常会在噪音过多与参数过多或者维度过多(模型复杂)时发生
数值上的表现就是in-sample error 越来越小而out-of-sample error越来越大
在一些情况下简单的H甚至要优于复杂的H
给大家一个趋势
随机噪音(Stochastic Noise)
实际上我们测量的是两个量,一个是f还有一个就是噪音,我们想要测量f但是不可避免地测量了噪音,而噪音通常是波动与测量错误这些我们没办法建立模型的东西
确定性噪音(Deterministic Noise)
如果说随机噪音会使图像模糊,那么确定性噪音可能会导致我们测出一个很奇怪的东西
图像上
高维会带来的问题
高维以后数据的结构可能会被破坏掉,或者说复杂难以分明
可能会变成海胆一样
所以我们就需要正则化来克服这些问题,留到下章讲