本文是作者学习台大林轩田教授《机器学习基石》课程后整理的简要笔记(未按课程回目分节),内容大部分来源于林轩田教授的课程资料,其余相关参考链接已标出。
版权所有:优快云博客 拖延症患者的自愈小记
可行性 - Feasibility
从训练样本学习得到模型去估计未知数据(具象化可以想成从bin中捧出一把marbles,通过marbles中不同颜色的比例估计整个bin中不同颜色的比例),这是典型的以小窥大,必须探讨机器学习如何保证这个“窥”是可行的。机器学习可行性,即希望证明h在样本中的错误率Ein可以和未知数据上的错误率Eout比较接近,这样下一步的工作——降低Ein,才能相应得到小的Eout,进而得到一个和f比较接近的h作为g,达到好的机器学习效果。
一步步来(均以二分问题为例):
- Hoeffding
Hoeffding不等式是数学上已证的,证明了一件事:样本量足够大时,样本中的占比和整体真实的占比非常接近,即所谓probably approximately correct(PAC)
对单个给定的hypothesis,Hoeffding可以作为判定这