1.4 归纳偏好
版本空间中的多个假设可能会产生不同的输出:
对于同一个样本,产生不同结果。
这时,学习算法本身的"偏好"就会起到关键的作用.
- 机器学习算法在学习过程中对某种类型假设的偏好,称为"归纳偏好" (inductive bias),或简称为"偏好"。
- 任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上"等效"的假设所迷惑,而无法产生确定的学习结果.
- 归纳偏好的作用在图1.3 这个回归学习图示中可能更直观.这里的每个训练样本是因中的一个点 (x , y) , 要学得一个与训练集一致的模型,相当于找到一条穿过所有训练样本点的曲线.
-
归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或"价值观".
-
“奥卡姆剃刀” (Occam’s razor)是一种常用的、自然科学研究中最基本的原则,即"若有多个假设与观察一致,则选最简单的那个".
-
归纳偏好对应了学习算法本身所做出的关于"什么样的模型更好"的假设.是否有好的泛化能力(通过对训练样本的学习,能更正确地预测测试样本)等。
-
为简单起见,假设样本空间 X 和假设空间组都是离散的.令 P(hIX,εa)代表算法εa于训练数据 X 产生假设 h 的概率, f 代表我们希望学习的真实目标函数 . 'εa 的"训练集外误差",即εa在训练集之外的所有样本上的误差(泛化误差)为
tips: 若f均匀分布,则有一半的f对x的预测与f(x)不一致。
也就是说,无论学习算法εa多聪明、学习算法εb多笨拙,它们的期望性能竟相同!这就是"没有免费的午餐"定理 (No Free Lunch Theorem,简称 NFL定理) [Wolpert, 1996; Wolpert and Macready, 1995].
NFL 定理有一个重要前提:所有"问题"出现的机会相同、或所有问题同等重要.
NFL 定理最重要的寓意是让我们清楚地认识到,脱离具体问题,空泛地谈论"什么学习算法更好"毫无意义,因为若考虑所有潜在的问题。所有学习算法都一样好.要谈论算法的相对优劣,必须要针对具体的学习问题;在某些问题上表现好的学习算法,在另一