引入
对于一个机器学习工程而言,我们可以选择的模型众多,就之前的章节,我们已经可以选择:
对于一个模型而言,我们也有很多模型参数需要人工选择,本章将对模型的评估选择和优化进行详细介绍。
概念介绍
过拟合和欠拟合
在机器学习中,我们期望通过训练集来得到在新样本上表现的很好的学习器,找出潜在样本的普遍规律,在训练过程中,可能会出现两种情形:
- 欠拟合:指对训练样本的一般性质尚未学好 。
- 过拟合:学习器把训练样本学得“太好”了的时候,可能把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降。
可以通过下图来辅助理解:
在机器学习中,我们尤其要预防过拟合的发生,但由于机器学习的问题常常是NP难甚至是NP完全的,而有效的算法必定是多项式时间内完成的,所以只要承认P=NP,就需要承认过拟合无法完全避免。
当然,P=NP是目前尚未证明或证伪的结论,我倾向于认为P!=NP。
偏差和方差
对于测试样本x,其真实标记为y,数据集中的标记为 y1 y 1 ,机器学习算法输出的标记为 y2 y 2 ,算法输出的期望值为 y¯¯¯2 y ¯ 2 ,则有以下定义:
方差:var(x)=E((y2−y¯¯¯2)2) 方 差 : v a r ( x ) = E ( ( y 2 − y ¯ 2 ) 2 )
偏差:bias2(x)=E((y−y¯¯