一、Recap and Preview
我们先来看一下基于统计学的机器学习流程图:

- 该流程图中,训练样本D和最终测试h的样本都是来自同一个数据分布,这是机器能够学习的前提;
- 另外,训练样本D应该足够大,且hypothesis set的个数是有限的,这样根据霍夫丁不等式,才不会出现BadData,保证Ein≈Eout,即有很好的泛化能力;
- 同时,通过训练,得到使Ein最小的h,作为模型最终的矩g,g接近于目标函数;
- 这里注意到我们将Ein(h)≈Eout(h)这个过程称之为对h的test验证,对找到一个g使得Ein(g)≈0,这个过程称之为train训练。

- 第一节课,我们介绍了机器学习的定义,目标是找出最好的g,使g≈f,保证Eout(g)≈0;
- 第二节课,我们介绍了如何让Ein≈0,可以使用PLA、pocket等演算法来实现;
- 第三节课,我们介绍了机器学习的分类,我们的训练样本是批量数据(batch),处理监督式(supervised)二元分类(binary classification)问题;
- 第四节课,我们介绍了机器学习的可行性,通过统计学知识,把Ein(g)与Eout(g)联系起来,证明了在一些条件假设下,Ein(g)≈Eout(g)成立。
这四节课总结下来,我们把机器学习的主要目标分成两个核心的问题:
- Ein(g)≈Eout(g)
- Ein(g)足够小
上节课介绍的机器学习可行的一个条件是hypothesis set的个数M是有限的,那M跟上面这两个核心问题有什么联系呢?

- 当M很小的时候,由上节课介绍的霍夫丁不等式,得到Ein(g)≈Eout(g),即能保证第一个核心问题成立。但M很小时,演算法A可以选择的

本文是关于台湾大学林轩田《机器学习基石》课程的学习笔记,重点讨论了机器学习流程中的Training与Testing的关系,以及如何通过限制有效假设的数量解决机器学习的可行性问题。文章介绍了成长函数和断点概念,以分析2D感知机的成长函数性质。
最低0.47元/天 解锁文章
420

被折叠的 条评论
为什么被折叠?



