
Ĵ机器学习基石(林轩田)
文章平均质量分 75
Jason__Liang
哈尔滨工业大学(威海)14级电子科学与技术学生,写博客的目的是为了记录现在幼稚的代码,并希望有一天能在我面试的时候发挥作用。
展开
-
机器学习基石(林轩田)第七章 笔记与感悟总结
7.1 The VC Dimension - Definition of VC Dimension我们上个周证明了Ein 约等于 Eout ,即测试的表现和训练的表现相似。在成长函数在某个地方有break point 和 N足够大的时候。意义在于之后介绍的VC维度。我们以后就不用B(N,k)这种麻烦的写法了,只需要使用N^(k-1)这种简单的写法。因为N^(k-1)是最大的上限。vc bound,...原创 2018-05-25 16:20:13 · 689 阅读 · 1 评论 -
机器学习基石(林轩田)第五章 笔记与感悟总结
5.1Training versus Testing - Recap and Preview训练和测试过程到底有什么不一样?机器学习是否可行,老师说的是: 1)资料从一个distribution中学习,如抽球问题 2)我们有 有限的 hypothesis 的那么无限大的hypothesis的,那怎么办?如果我们选择了一个 g 使Ei...原创 2018-05-24 19:37:55 · 686 阅读 · 0 评论 -
机器学习基石(林轩田)第十五章 笔记与感悟总结
15.1 Validation - Model Selection Problem我们为了解决过拟合的问题,我们提出了regularization。我们不只关注Ein,而是在Ein上面加上一个regularizer,一起做minimize。这样可以有效的减小model complexity我们面临着很多的选择,之间的组合会产生组合爆炸的。输入:各种g和演算法。输出:最好的那个模型,能让Eout变小...原创 2018-05-29 10:12:42 · 454 阅读 · 0 评论 -
机器学习基石(林轩田)第十四章 笔记与感悟总结
14.1 Regularization - Regularized Hypothesis Set我们可以看出,右侧的数据拟合的并不好,因为我们用来拟合的方程维数太高!!!我们想让右侧的overfit 变成左侧的看起来不错的 ‘regularized fit’。我们想从高次的H慢慢回退到低次的Hypothesis、命名的历史是:当有限的数据点可以用多个方程来进行拟合时,我们需要选择最合适的那个。弹幕...原创 2018-05-28 18:25:52 · 656 阅读 · 0 评论 -
机器学习基石(林轩田)第四章 笔记与感悟总结
4.1 Feasibility of Learning - Learning is Impossible 老师提出了一个难以学习的例子。我们无法知道未知的东西,但是我们想要推断未知的东西。4.2 Feasibility of Learning - Probability to the Rescue有什么工具对未知的 f 做一些推论???例如对瓶子里的弹珠颜色比例进行推论。思路是进行抽样。引入了大数...原创 2018-05-23 20:43:14 · 440 阅读 · 0 评论 -
机器学习基石(林轩田)第十三章 笔记与感悟总结
13.1 Hazard of Overfitting - What is Overfitting我们可以看出,虽然Ein为0,貌似算法的表现很好,但是实际上可以看出,我们的拟合曲线和target一点点也不像!!!!这意味着,我们有很高的Eout。不好的“举一反三”(generation)。我们从紫色曲线的最低点开始往右移,我们可以看出来,模型的复杂度在增加,而输入样本的偏差却在不断减小。我们把fi...原创 2018-05-28 11:24:48 · 298 阅读 · 0 评论 -
机器学习基石(林轩田)第三章 笔记与感悟总结
3.1Learnig with Different Output Space本节介绍了很多的机器学习问题。是非问题可以用PLA。其实就是二分类的问题(binary classification)。是非题应用十分广泛。从而引申到多类分类的问题。Multiclass Classification二分类其实就是多分类时k=2。回归问题典型,输出是一个实数。自然语言处理:如果是一个单词,则是多分类问题。但...原创 2018-05-23 14:40:15 · 510 阅读 · 0 评论 -
机器学习基石(林轩田)第二章 笔记与感悟总结
2.1 Perceptron Hypothesis set问题:什么样的机器学习能解决是非问题?问题:我们的H 到底长什么样子?通过w来进行加权,然后看是否通过门槛值。红字h被称为'感知器'。perceptron打个比方:就是数学题,权值是每个题的分数。这样60分就是阈值。我们想要将threshold也当成一个特殊的W!这样用两个向量就能很简单的表示出来了。注意w的第0个数字是(-threshol...原创 2018-05-23 12:28:05 · 355 阅读 · 0 评论 -
机器学习基石(林轩田)第十二章 笔记与感悟总结
12.1 Nonlinear Transformation - Quadratic Hypotheses我们用非线性的方法来做分类。但是也有其他的情况,无法利用线性的方法来进行分割。我们不用线的方式,而是用其他的方法,将数据进行分割。我们想通过使用圆圈的方式来进行分类。这样我们要重新改写之前所有的分类结果。重新编写 圆-PLA,圆-Regression 这几种方法。我们给w上面加了个~,表示 ...原创 2018-05-28 09:45:19 · 528 阅读 · 0 评论 -
机器学习基石(林轩田)第十一章 笔记与感悟总结
11.1 Linear Models for Classification - Binary Classificationstochastic 随机的linear classification是一个NP hard问题,因此如何找到一种方法,能够使相对容易的linear regression 和 logistics regression 来帮助求解linear classification,就比较有...原创 2018-05-27 20:28:53 · 500 阅读 · 0 评论 -
机器学习基石(林轩田)第一章 笔记与感悟总结
第一章 The Learning Problem 1.1 Course Indroduction 老师观点:从基础学起。不要成为机器学习的奴隶。1.2 What is Machine Learning 学习是从观察出发,视听嗅觉。观察——>学习——>技能电脑的观察是资料,然后进行处理变成技能。什么是技巧?技巧是improve some performance measure(e.g...原创 2018-05-22 20:34:36 · 2957 阅读 · 0 评论 -
机器学习基石(林轩田)第十章 笔记与感悟总结
10.1 Logistics Regression - Logistics Regression Problem判断有还是没有心脏病,即二元分类问题。左上角说明有噪音。我们比较在意的是错误率的多少。我们不是很强硬的就0或者1,而是变成了一个值,值的大小即概率值。我们得不到理想中的数据,而是实际上有噪音的数据,而且数据不是概率值,而是确定的0,1x0是bias,其他都是数据,然后计算一个加权和。我们...原创 2018-05-26 16:00:05 · 346 阅读 · 0 评论 -
机器学习基石(林轩田)第九章 笔记与感悟总结
9.1 Linear Regression - Linear Regression Problem我们花力气在二元分裂的VC Bound是可以用在各种情形,也可以用在线性回归。输出不是二元了,而是一个实数。输出空间就是一个实数。我们怎么做到机器学习呢?相比感知器,我们最后的输出没有了sign左图为二元空间,右图为三元空间。想找个小的residuals传统上最常用的错误衡量使用 squared e...原创 2018-05-26 12:14:35 · 552 阅读 · 0 评论 -
机器学习基石(林轩田)第八章 笔记与感悟总结
8.1 Noise and Error - Noise and Probabilistic Target任务:有噪音的情况下如何衡量我们错误上一节:如果我们的假设空间有有限的dvc ,很大的资料 又能找到g使Ein很小的话,那么我们大概就能学到东西。如果有noise怎么办呢?比如标签标错了,同时既是好的又是坏的,输入信息就有错误等等。此时的vc bound 还有用嘛?我们进行vc bound 推导...原创 2018-05-26 10:01:04 · 507 阅读 · 0 评论 -
机器学习基石(林轩田)第十六章 笔记与感悟总结
16.1 Three Learning Principles - Occam’ Razor简单的hypothesis,简单的model简单的model。当输入乱乱的资料时,Ein无法很小。因此,如果用简单的模型,能够分开资料,那么就说明其中会有某种规律。而不能分开,则说明没有啥规律。因为复杂的模型能够拟合所有的数据,所以你根本不知道到底是有规律的样本?还是随机抛硬币产生的样本(没有内在规律)。16...原创 2018-05-31 20:12:31 · 491 阅读 · 0 评论