
机器学习基石
文章平均质量分 91
年少_当自强
希望在csdn记录自己的机器学习成长历程
展开
-
台湾大学机器学习基石Lecture4
4-1:Feasibility Of Learning机器学习的可行性,可能有一个很upset的事情是机器学习可能是不行的,为什么?因为你能确保在数据Data中g满足要求,但是数据外或者进行预测呢?g可能和实际的f差很远。4-2:Probability to the rescue补救是有可能性的。 在概率论与数理统计中中,我们做过用样本估计总体的试验,假设有一罐球,如下图所示: 罐子里有绿色原创 2017-10-09 12:53:05 · 271 阅读 · 0 评论 -
台湾大学机器学习基石Lecture7
7-1:Definition Of VC-Dimensionvc维的定义 上一节我们介绍了成长函数MH(N)M_H(N)、上限函数B(N,K)B(N,K)、以及上限函数小于等于一个组合∑k−1i=0CiN\sum_{i=0}^{k-1}C_N^i,由组合知道,其最高次幂为Nk−1N^{k-1},下面用两张图来介绍上限函数作为成长函数和Nk−1N^{k-1}作为成长函数的差别: 从图中可以看出原创 2017-10-15 12:49:54 · 289 阅读 · 2 评论 -
台湾大学机器学习基石Lecture3
1、监督学习还是举上面那个分类四种美国硬币的例子,{1c,5c,10c,25c},那么对于一组数据,监督学习就是指你知道所有数据对应的标签,也就是你知道完整的每个数据属于哪一类。比如下图所示:原创 2017-10-08 12:52:15 · 253 阅读 · 0 评论 -
台湾大学机器学习基石Lecture2
2-2:PLA上一节提到的h(x),如何解出w呢?这就需要一个算法来进行求解了,也就是经典的PLA(perceptron learning algorithm)感知器算法,我们要从众多的hypothesis中选出最好的h,然后令g=h,这个g至少在给出的数据D上满足 g≈f,这样就可以使用这个g来进行未知顾客是否发放信用卡的预测了。 但是存在一个问题,hypothesis有无限多个,也就是有无限多条线,如何找出原创 2017-10-07 13:24:33 · 285 阅读 · 0 评论 -
台湾大学机器学习基石lecture1小结
最近在学习台湾大学林轩田老师的机器学习基石课程,在lecture1中,老师讲述了when can machine learn?提出了三个判断是否使用机器学习的关键:1、有更好的输出表现2、不知道如何写规则(但数据集应该包含规则)3、最重要的便是要有资料data针对机器学习在生活中的应用,举一个例子来说,假如我们要写一个movie推荐系统,那么一个可用的pattern可以是:找到da原创 2017-09-22 21:47:47 · 320 阅读 · 0 评论 -
台湾大学机器学习基石Lecture6
6-1:Restriction of Break point断点的限制 上一节介绍了成长函数MH(N)M_H(N),即样本为二元分类的情况下,假设空间在N个样本点上能够产生的最大二分数量。由此引出了断点(Break Point)的概念,即不能满足完全分类,也就是k个输入样本点,无论k怎么分布,都不能被shatter为2k2^k种情况,那么k就是断点。 我们进一步对K进行讨论,假设k=2时:当输原创 2017-10-14 13:05:40 · 328 阅读 · 0 评论 -
台湾大学机器学习基石Lecture5
5-1:Recap and preview概括和预习 Lecture4中我们得到了一个推论,如果|H|=M是有限的,并且数据N足够大,那么由公式(1): 由此可以得到下面的推论:1、没有断点的时候,$M_H(N)=2^N$2、存在断点为k的时候,其成长函数$M_H(N)=O(N^{k-1})$原创 2017-10-10 18:24:11 · 299 阅读 · 0 评论 -
台湾大学机器学习基石Lecture11
11-1:Linear Models for Binary classification线性模型在二元分类中的应用 回顾一下我们 前面所学的三种经典模型:Linear classification(线性分类)、Linear Regression(线性回归)、Logistic Regression(也称软线性分类),我们将这三个模型进行对比,结果如下图所示: 其中s是得分函数,其表达式为s=w原创 2017-10-22 13:36:47 · 251 阅读 · 0 评论 -
台湾大学机器学习基石Lecture10
10-1:Logistic Regression ProblemLogistic回归问题 我们举一个心脏病预测的例子 ,我们根据患者的年龄,性别,体重,血压这些特征来预测这个人是否有心脏病,很显然这是一个二分类的例子,其输出结果为{+1,-1},算法流程如下图所示: 具体流程图的介绍在第八节已经详细介绍了,这里就不再赘述了。 那么我们如何根据这些特征判定是否该患者患心脏病呢?类似PLA,我原创 2017-10-21 14:06:20 · 357 阅读 · 0 评论 -
台湾大学机器学习基石Lecture9
9-1:Linear Regress Problem线性回归问题 再次谈到第二章发银行信用卡的问题,给你X=(x1,x2…xn)X=(x_1,x_2\ldots x_n)个输入特征,二元分类就是让你设计一个算法决定是否给一个新的顾客发放信用卡,而本节介绍的回归问题是指对于一个新的顾客,你设计一个算法来预测该顾客的信用额度是多少,它的输入是整个实数集R。 线性回归的假设公式如下: y≈∑di=0原创 2017-10-17 12:09:25 · 257 阅读 · 0 评论 -
台湾大学机器学习基石Lecture12
12-1:Quadratic Hypothesis二次规划的假设 之前我们介绍的都是线性假设,即用一条线将数据分隔开,例如下面的情形: 直观的第一感受就是可以用一条直线将O和X分隔开,由此也引入了得分函数s=wTxs=w^Tx。但是如果数据集的分布是下面这个样子呢? 如果你想用一条直线将圈圈和叉叉分开,除非是数据是存在noise的,不然不可能分得开,换个角度想,分开两类数据未必需要直线原创 2017-10-23 14:00:54 · 268 阅读 · 0 评论 -
台湾大学机器学习基石Lecture8
8-1:Noise and probabilistic Target杂絮和概率目标函数 本节主要介绍的是数据有噪声的情况下,机器学习是否还是可行的。 那么什么是噪声呢?比如发银行信用卡的时候: 1. 相同的用户特征却得到了不同的输出标签y 2. 对数据进行分类的时候,对应的标签填写错误 3. 或者直接就是录入了错误的数据 以上都是噪声产生的原因。 还是以从罐子里抽小球为例进行原创 2017-10-16 13:07:25 · 252 阅读 · 0 评论