
机器学习基石笔记
文章平均质量分 86
SherryChu1026
知行合一。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
林轩田-机器学习基石 课堂笔记(八) Noise and Error
1、Noise and Probabilistic Target 经过之前一段时间的学习,机器学习流程图如上,之前的数据集没有noise存在,那么我们现在考虑样本数据中存在噪音与错误的情况。 同样结合之前银行办理信用卡的例子,当银行错误的估计了是否为客户办理信用卡的情况时;当对应同一个客户产生了不同的输出时;当银行记录了错误的客户信息时等都会产生噪音。再结合之前的罐子和弹珠的例子,我们知道VC b...原创 2018-02-24 15:53:02 · 400 阅读 · 0 评论 -
林轩田-机器学习基石 课堂笔记(七) The VC Dimension
1、Definition of VC Dimension我们上次学习到,如果我们的假设空间存在Break Point,那么它一定存在成长函数mH(N)被某个上限函数B(N,k)所约束,这个上限函数也会被某个多项式约束,而这个多项式最高项为N^(k-1)。因此我们可总结为:①我们需要有一个好的hypothesis,也就是存在Break Point。②我们需要有一个好的数据集D,也就是一个比较大的D。...原创 2018-02-21 07:22:02 · 485 阅读 · 0 评论 -
林轩田-机器学习基石 课堂笔记(六)Theory of Generalzation
1、Restriction of Break Point回顾一下之前学习到的定5义①成长函数mH(N):假设空间在N个样本点上能产生的dichotomy数量,即样本点在二元分类下的组合情况。②突破点(Break Point):不能满足完全分类情形(shattered:即N个点所有组合情况都出现)的样本点个数,即不可分出2^N种dichotomy。之前我们学习了四种情况下的成长函数及它们的Break...原创 2018-02-21 05:12:23 · 450 阅读 · 0 评论 -
林轩田-机器学习基石 课堂笔记(五)Training versus Testing
1、 Recap and Preview第一堂课我们告诉大家learning想做的事情,就是有一个未知的f,我们的演算法能找出一个g,使这个g≈f,保证Eout≈0。第二堂课我们引入了PLA算法,可以将线性可分的样本正确的进行分类处理,并针对线性不可分的情况提出了噪音的概念和Pocket算法,这些算法目的都是让Ein≈0。第三堂课我们介绍了机器学习的种类,知道目前我们的训练样本属性为batch &...原创 2018-02-21 05:08:43 · 456 阅读 · 0 评论 -
林轩田-机器学习基石 课堂笔记(四)Feasibility of Learning
1.Learning is Impossible课上给出了一个例子,要求通过给出的训练样本预测右边的九宫格输出结果为-1还是+1:而实际上无论你回答-1还是+1,我们都可以说你是错误的且能给出看似合理的解释:再看另一个例子,输入为三维的二进制数字。对于5个训练样本,分类效果完全正确,但是在3个测试数据上,预测结果却不一定正确。因此,学习可能是做不到的,在训练集中可以求得一个最佳假设g,但是在训练集...原创 2018-02-21 05:05:26 · 439 阅读 · 0 评论 -
林轩田-机器学习基石 课堂笔记(三)Type of Learning
1.Learning with Different Output Space上节课主要讲的是二元分类问题(Binary Classification):输出结果为{-1,+1},二元分类问题在生活中十分常见,例如是否同意信用卡申请,判别邮件是否为垃圾邮件等。二元分类问题是机器学习领域非常基本核心的问题。第一张图是我们之前学习过的线性可分的二元分类问题,可以运用PLA算法求解;第二张图也是我们学习过...原创 2018-02-21 05:01:25 · 276 阅读 · 0 评论 -
林轩田-机器学习基石 课堂笔记(二)Learning to Answer Yes/No
1.Perceptron Hypothesis SetPerceptrons=linear (binary) classifiers这里介绍了常用的感知机模型,其本质是一个线性分类器。运用“银行是否同意客户申请办理信用卡”为例:有训练样本D,包括用户的基本信息(年龄,性别,年收入)等以及是否同意了用户办理信用卡的申请。输入中每个x代表一个用户,x的每一维表示用户的某一属性,设有d个属性,每个属性分...原创 2018-02-21 04:57:15 · 345 阅读 · 0 评论 -
林轩田-机器学习基石 课堂笔记(一)A takes D and H to get g
1.From Learning to Machine LearningLearning: Observations->learning->skillMachine Learning: data->ML->skillps: skill — improve some performance measure (eg: prediction accuracy)2.Key Essen...原创 2018-02-21 04:52:15 · 279 阅读 · 0 评论 -
林轩田-机器学习基石 课堂笔记(九) Linear Regression
1、Linear Regression Problem我们之前的课程讲到我们在二元分类情况下证明的VC bound是可以用在不同的error measure和有noise的情形,当然也包括我们regression。想象我们已经有了bound,那么演算法上我们应该怎么设计呢?回到我们之前讲的银行发信用卡的例子,如果今天银行不是要决定给不给用户发信用卡,而是要决定给某个用户多少的额度,那么这就不是一个...原创 2018-02-26 00:07:55 · 759 阅读 · 0 评论