经验误差和过拟合
错误率:分类错误的样本数占样本总数的比例
精度 = 1 - 错误率
训练误差(经验误差):学习器在训练集上的误差
泛化误差:在新样本上的误差
过拟合:算法从样本中学到的某种特性,并非一般特性
欠拟合:算法未从样本中充分学习到一般规律
模型选择的关键问题
如何获得测试结果:评估方法
如何评估性能优劣:性能度量
评估方法
1. 留出法(hold-out)
数据集D = 训练集S ∪ 测试集T ,S ∩ T = ∅
测试集小时,评估结果方差较大
训练集小时,评估结果偏差较大
常见做法2/3~4/5的样本用于训练,剩余样本用于测试
2. 交叉验证法(又名k折交叉验证)
数据集D = D1 | D2 | ... | Dk,Di ∩ Dj = ∅,k最常用的取值为10
| 训练集 | 测试集 | 测试结果 |
| D1 D2 ... D8 D9 | D10 | 测试结果1 |
| D1 D2 ... D8 D10 | D9 | 测试结果2 |
| D2 D3 ... D9 D10 | D1 | 测试结果10 | <

最低0.47元/天 解锁文章
4827

被折叠的 条评论
为什么被折叠?



