
机器学习
程序引力
这个作者很懒,什么都没留下…
展开
-
机器学习概述
机器学习概述机器学习概述机器学习分类从样例中学习符号主义学习连接主义学习统计学习在问题求解和规划中学习通过观察和发现学习通过观察和发现学习从指令中学习机器学习分类 R.S.Michalski等人将机器学习分为“从样例中学习”、“在问题求解和规划中学习”、“通过观察和发现学习”和“从指令中学习”。E.A.Feigenbaum等人将机器学习划分为“机械学习”,“示教学习”,“类比原创 2016-09-08 09:21:24 · 661 阅读 · 1 评论 -
k近邻模型
k近邻模型当作为分类算法时,通过“投票法”预测结果。也可基于距离远近进行加权投票当作为回归算法时,通过“平均法”预测结果。也可基于距离远近进行加权平均属于懒惰学习不具有显式地学习过程作为分类算法《机器学习》中讨论了k近邻模型在样本独立同分布,且密度足够大的前提下,有结论: 最近邻分类器虽然简单,但它的泛化错误率不超过贝叶斯最优分类器的错误率的两倍范围:二分类或多分类,不要想当然的以为只能原创 2016-09-08 09:15:54 · 1978 阅读 · 0 评论 -
最小二乘法
最小二乘法总结因为某向量的长度(似乎在欧式空间下)等于向量各元素的平方和,再开方。 因此,均方误差可以看成是某向量的长度的平方。这个均方误差的每一项可以看成是这个向量的一个元素。 ⎡⎣⎢⎢yi⋮yn⎤⎦⎥⎥−(a0⎡⎣⎢⎢1⋮1⎤⎦⎥⎥+a1⎡⎣⎢⎢xi⋮nn⎤⎦⎥⎥)\begin{bmatrix}{y_{i}}\\{\vdots}\\{y_{n}}\\\end{bmatrix}-(a原创 2016-09-08 09:16:57 · 351 阅读 · 0 评论 -
分类模型概述
二分类感知机见文章《感知机》对数几率回归见文章《线性模型》多分类将多分类问题拆分为多个二分类问题,拆分的策略有: * 一对一:新样本同时提交给N(N-1)/2个分类器,最终结果由投票产生 * 一对余: * 多对多:比较: 一对一需训练N(N-1)/2个分类器,而一对余只需训练N个分类器 但一对一每次只是用两个类的样例,而一对余每次要使用所有的样例。类别很多时,一对一的时间开销更小。 因此原创 2016-09-08 09:17:24 · 655 阅读 · 0 评论 -
过拟合
随着训练程度加深,训练误差不断减小,趋近于0,但测试误差先减小,后增大。 当测试误差增大时,表示已经发生过拟合。 训练误差与测试误差的图像要记忆清楚。原创 2016-09-08 09:17:44 · 523 阅读 · 0 评论 -
原始问题与对偶问题
原始问题与对偶问题(转)每一个线性规划问题,我们称之为原始问题,都有一个与之对应的线性规划问题我们称之为对偶问题。原始问题与对偶问题的解是对应的,得出一个问题的解,另一个问题的解也就得到了。并且原始问题与对偶问题在形式上存在很简单的对应关系: * 目标函数对原始问题是极大化,对对偶问题则是极小化 * 原始问题目标函数中的收益系数(优化函数中变量前面的系数)是对偶问题约束不等式中的右端常数,而原始转载 2016-09-08 09:18:08 · 7084 阅读 · 0 评论 -
感知机
感知机特点二分类的线性分类模型对应于输入空间中的超平面属于判别模型,是神经网络和SVM的基础分为原始形式和对偶形式一般以误分类(错误率)作为损失函数,利用梯度下降法对损失函数进行极小化。f(x)=sign(wx+b)其中,w是超平面法向量,b是超平面截距,wx+b=0即表示超平面算法算法伪代码: 注:感知机学习算法采用不同的初值或先去不同的误分类点,解可能不同。收敛性Novikoff定理原创 2016-09-08 09:18:29 · 365 阅读 · 0 评论 -
机器学习面试经验总结
SVM及其推导必考 logistic回归优化方法: 梯度法:用平面逼近局部 牛顿法:用曲面逼近局部原创 2016-09-08 09:18:48 · 361 阅读 · 0 评论 -
机器学习算法的联系和区别
联系当损失函数是0-1损失时,测试误差就变成了测试数据集上的误差率(错误率)序关系若离散属性有序关系,则可通过连续化转化为连续值 若离散属性没有序关系,通常只能转化为k维向量感知机与线性回归感知机是线性二分类问题,线性回归是回归问题感知机的y取值是{-1,1},线性回归y取值是R.感知机的损失函数来源于分类错误率,线性回归的损失函数是均方误差(均方误差在几何上就是欧式距离)感知机的优化方法原创 2016-09-08 09:19:26 · 1000 阅读 · 0 评论 -
机器学习十大算法
C4.5决策树,分类CART决策树,分类K-Means聚类kNN基本的分类、回归算法SVMAprioriEMPageRankAdaBoostNaive Bayes,生成学习原创 2016-09-08 09:20:39 · 488 阅读 · 0 评论 -
机器学习的策略
0.概述按照李航编著的《统计学习方法》中定义的机器学习三要素分别是:模型、策略和算法。分别指模型的假设空间、模型选择的准则以及模型学习的方法。 下面将结合周志华的《机器学习》来总结机器学习的策略,及选择模型的准则。面对不同机器学习算法,或同一学习算法的不同学习器,需对其性能或泛化性能进行评估,才能选择出最优模型。下面内容从数据集划分和选择模型时的总体步骤入手,然后总结了这些步骤中所用到的指标,原创 2016-09-08 09:21:01 · 1789 阅读 · 0 评论 -
随机森林、Boost和GBDT
随机森林若干决策树组成,每一个决策树很小,只有问题属性中的一小个子集,然后将所以小的决策树组合起来,用投票法决定分类。 * 在数据集上表现良好 * 在当前的很多数据集上,相对其他算法有着很大的优势 * 它能够处理很高维度(feature很多)的数据,并且不用做特征选择(WHY?) * 在训练完后,它能够给出哪些feature比较重要 * 在创建随机森林的时候,对generlization原创 2016-09-08 09:15:21 · 1598 阅读 · 0 评论