主要内容:
-
- Overfitting(问题)
- 判断和防止overfitting 的方式
——————————————————————————————————
过度拟合的模型往往不能进行一般化推广(generalization)
拟合问题需要在两个方面进行权衡
需要注意的是 如果用来训练的数据和测试的数据是同样的,那么这样的检验是没有意义的,就像 "Table Model" 一样
一般我们会将数据集分为training/testing(holdout) 两个部分
注: 在python中可以这样做Code
from sklearn.cross_validation import train_test_split Xtrain, Xtest, ytrain, ytest = train_test_split(X, y)
识别 overfitting 的方式
- Fitting graph(模型误差与模型复杂度的图像)
基于两个模型类型讨论 Overfitting
- Tree induction problem
- 模型的复杂程度与节点的数量相关