
机器学习基石学习笔记
SilenceHell
学生,希望能在csdn上学到知识。
展开
-
机器学习基石第二周
1.感知机与其假设空间 假设输入为X,X是个多维向量分量为x1,x2,…..,xi。比如X是个银行的客户,x1,x2,……xi,就分别代表那个人的性别,年您,职业,收入等信息。感知机就是对这些分量进行加权求和,并设定一个阈值,如果求和结果大于这个阈值,那么输出一个结果,如果为负,则输出相反的结果。这里的权重组,与阈值的组合有无穷多种,我们将这些组合的集合称作假设空间H。我们的目的就是从H中学...原创 2018-07-30 11:02:50 · 318 阅读 · 0 评论 -
机器学习基石第十四周笔记
一.Regularized Hypothesis Set 如果发生了过拟合那么我们该怎么办呢?之前介绍了两种情况,接下来介绍第四种方法正则化。 如下图,我们想将右边的过拟合红线,优化为左图的红线。 我们的想法是将复杂度为10的假设空间退化成复杂度为2的假设空间,那么我们该怎么做呢? 我们对两个假设空间进行分析后发现,当我们对复杂度为10的假设空间添加约束条件令w3……w10为0时,假设...原创 2018-08-16 16:27:15 · 241 阅读 · 0 评论 -
机器学习基石第十六周笔记
一.Occam’s Razor 这一节将会是最后一节,主要讲解了机器学习中的几个比较经典的原则(锦囊妙计)。 1. 奥卡姆剃刀原则:一个模型越简单越好,将模型不必要的地方最好去掉。 那么怎么判断一个模型是不是简单的呢? 首先一个简单的模型一般具有较少的系数。 且一个简单的假设空间是选出一个简单模型的充分非必要条件。 那么为什么越简单越好呢? 首先越简单的假设空间的成长函数就越...原创 2018-08-18 16:19:14 · 207 阅读 · 0 评论 -
机器学习基石第十二周笔记
一.Quadratic Hypothesis 之前学习了线型的分类器,今天将介绍非线性的分类器。 下图左边的数据,我们用直线分类器能够很容易的将数据分开,但是右边的数据我们却不行,那么我们该怎么办呢? 之前对于线型不可分的数据我们容许有一定的误差,但是这里的误差明显太大了,所以不能应用。但是我们发现该数据是能够用一个圆进行分割的,所以这里我们将应用Circular Separable. ...原创 2018-08-13 17:46:29 · 218 阅读 · 0 评论 -
机器学习基石第四周学习笔记
1.learning is impossible? 我们要通过给定的训练数据学习出一个g接近于f,首先我们学习出的g在给定的训练数据上结果与f一样,但是在我们给定的训练数据之外的数据,我们并不能保证g给出的输出是和f给出输出是一样的,因为我们并不知道f是什么,所以对于所学到的所有g,我们都有理由说g是错的,因为f不知道。这个问题被称为no free launch 即天下没有免费的晚餐。2.p...原创 2018-08-02 20:26:00 · 314 阅读 · 0 评论 -
机器学习基石第九周学习笔记
一.Linear Regression Problem 我们之前证明了VC bound的正确性,并且机器学习是能够学习到东西的,现在我们默认对于其他机器学习方法,该定理也是成立的(确实成立,但是我们不在进行证明) 我们在之前的二分类中已经确定哪些人能够发信用卡,那么现在我们就要决定那些要发信用卡的人,我们应该发他们多少额度的信用卡。 我们认为发的信用卡额度应该和他们的输入X相关,是他们的加权...原创 2018-08-08 20:51:15 · 314 阅读 · 0 评论 -
机器学习基石第十三周笔记
一.What’s Overfitting 什么叫作过度拟合? 如下所示,当N=5时,目标f本来是个2次多项式,而我们用5次多项式对这些数据进行拟合就会造成过拟合。过拟合的Ein虽然很小而Eout却很大。 上述原因可以用下图进行解释,使用高次的函数进行拟合会使d(vc)增加,这会增加假设空间的复杂度,从而使Eout与Ein的差别变大,虽然Ein会减少,但是Eout却增大,反之Eout与...原创 2018-08-15 16:19:10 · 235 阅读 · 0 评论 -
机器学习基石第十一周笔记
一.Linear Models for Binary Classification 之前学习了三种线型模型,线型分类的规律就是都对数据进行加权求得一个分数,然后对分数进行处理,我们知道三种线型模型都能用来分类,那么他们之间有什么区别呢?我们首先复习一下三种模型的错误函数。 然后对上诉三种错误函数进行变形,将他们的变量都变为ys,为了将他们的图形画在同一个坐标系进行分析。 Linear r...原创 2018-08-10 20:06:42 · 303 阅读 · 0 评论 -
机器学习基石第三周笔记
1.learning with Different output space之前我们学习了PCA进行二分类即Y={-1,1},但是机器学习不止能进行二分类,还能进行多分类问题*Y={1,2,3…,k}即给定一个输出,机器告诉我们该输入属于Y中的哪一类。机器学习还能进行回归学习*,即Y=R或者Y=[lower,upper]∈R(bounded regression)即给定一个输入然后给出的输出是...原创 2018-08-01 22:03:17 · 213 阅读 · 0 评论 -
机器学习基石第八周笔记
Noise and Error 一.Noise and Probabilistic Target原创 2018-08-06 15:35:34 · 291 阅读 · 0 评论 -
机器学习基石第十周笔记
一.Logistic Regression Problem 我们之前讲解的二元分类只是判定输入是与不是,如下: 但是我们现在不止想知道是与不是,而是想知道是的几率和不是的几率,那我们该怎么办呢?这时我们就用到了逻逻辑斯回归(我们称之为软分类): 我们要想学得上述所说的东西,那么我们学习所需要的资料应该如下图左边所示(虽然标注为nioseless,其实我们知道我们的学习数据都是有noi...原创 2018-08-09 20:27:29 · 246 阅读 · 0 评论 -
机器学习基石第7周
The VC Dimension 一.Definition of VC Dimension 上次课我们知道我们的成长函数B(N,k)有上限,如图中的表所示,左边的表示B(N,k)右边的表示N^(k-1),我们发现当N>=2,K>=3时,B(N,K)小于N^(k-1)所以我们在使用的时候直接使用N^(k-1)而不用B(N,K)。 以上说明一个好的机器学习结果需要一个好的...原创 2018-08-05 16:07:58 · 342 阅读 · 0 评论 -
機器學習基石第一周学习笔记
1 . 什么是机器学习? 机器从给定的data中进行学习,并习得一定的技巧,这些技巧必须对我们有提升的作用。2.什么时候需要机器学习? 当我们不能把规则详细的定义下来时,比如识别一棵树,我们并不能规定什么样的东西是一颗树,树的所有特征,但是我们却能认识一棵树,所以我们能让机器看很多树,然后让它认识树。 当做快速决定的时候。 当大规模的个性化服务时。3.什么样的问题能够使用机器学习?...原创 2018-07-27 18:06:33 · 261 阅读 · 0 评论 -
机器学习基石第六周
Theory of Generalization一.Restriction of Break Point 在2D perceptrons里面,当输入为四个点时所有可能的分类情况有2^4次方16个,但是由于有的情况不能靠一条直线将其分开,所以实际上的分类情况少于16种为14种。我们将第一次出现这种情况的输入点数称为break Points。 break Points的另一种解释就是你无法...原创 2018-08-04 18:15:04 · 330 阅读 · 0 评论 -
机器学习基石第五周
一.Recap and Preview 首先对之前的内容进行一下总结,首先我们希望学习一个g,这个g越接近于f越好。然后我们有一个假设空间H,这个假设空间包含了有限多的假设h,我们希望利用数据D即sample从H中选出一个最好的h作为g。在之前的课程中我们假设H中只有一个h,那么我们用D能够测出这个h的分类正确率(即h与f的差距大小),然后我们用这个分类正确率来判断这个h好或者不好。而这个h...原创 2018-08-03 16:49:08 · 268 阅读 · 0 评论 -
机器学习基石第十五周学习笔记
一. Model Selection Problem 现在介绍最后一种解决过拟合的方法Validation。 假如我们使用不同的假设空间获取了很多不同的结果,我们该选择哪个结果作为我们的最终结果呢? 根据视觉结果吗?当然不行,因为高维的数据我们不可见。 用Ein吗?也不行因为复杂假设空间的Ein一定会比较小。 我们最终选择Etest作为选择模型的标准,Etest用测试数据对模型进...原创 2018-08-17 17:27:18 · 234 阅读 · 0 评论