第六周.学习曲线、机器学习系统的设计
Learning Curve and Machine Learning System Design
关键词
学习曲线、偏差方差诊断法、误差分析、机器学习系统的数值评估、大数据原理
概要
本周内容分为两讲:
第一讲.Advice for applying machine learning,主要内容是关于偏差、方差以及学习曲线为代表的诊断法,为改善机器学习算法的决策提供依据;
第二讲.Machine learning system design,主要内容是机器学习算法的数值评估标准:准确率(交叉验证集误差)、查准率precision、召回率recall以及F值,给出了机器学习系统的设计流程.
==============================第一讲==============================
========= 关于偏差、方差以及学习曲线为代表的诊断法 ==========
(一)模型选择Model selection
在评估假设函数时,我们习惯将整个样本按照6:2:2的比例分割:60%训练集training set、20%交叉验证集cross validation set、20%测试集test set,分别用于拟合假设函数、模型选择和预测。
三个集合对应的误差如下图所示(注意没有不使用正则化项):
基于以上划分,我们有模型选择的三个步骤:
step1.用测试集training set对多个模型(比如直线、二次曲线、三次曲线)进行训练;
step2.用交叉验证集cross validation set验证step1得到的多个假设函数,选择交叉验证集误差最小的模型;
step3.用测试集test set对step2选择的最优模型进行预测;
以线性回归为例,假设你利用线性回归模型最小化代价函数J(θ)求解得到一个假设函数h(x),如何判断假设函数对样本的拟合结果是好是坏,是不是说所有点都经过(代价函数J最小)一定是最理想的?
或者这样说,给你下图的样本点,你是选择直线、二次曲线、还是三次曲线......作为假设函数去拟合呢?