
机器学习
holybin
这个作者很懒,什么都没留下…
展开
-
机器学习中的算法:K-means聚类
K-means聚类算法采用的是将N*P的矩阵X划分为K个类,使得类内对象之间的距离最大,而类之间的距离最小。Matlab中使用方法:Idx=Kmeans(X,K)[Idx,C]=Kmeans(X,K) [Idx,C,sumD]=Kmeans(X,K) [Idx,C,sumD,D]=Kmeans(X,K) […]=Kmeans(…,’Param1’,Val1,’P转载 2014-04-05 03:07:43 · 10611 阅读 · 0 评论 -
机器学习中的算法:支持向量机(SVM)基础
转载自:前言: 又有很长的一段时间没有更新博客了,距离上次更新已经有两个月的时间了。其中一个很大的原因是,不知道写什么好-_-,最近一段时间看了看关于SVM(Support Vector Machine)的文章,觉得SVM是一个非常有趣,而且自成一派的方向,所以今天准备写一篇关于关于SVM的文章。 关于SVM的论文、书籍都非常的多,引用强哥的话“SVM是让应用数转载 2014-04-04 09:39:53 · 2148 阅读 · 0 评论 -
机器学习中的算法:决策树模型组合之GBDT(Gradient Boost Decision Tree)
转载自:http://www.cnblogs.com/LeftNotEasy/archive/2011/03/07/random-forest-and-gbdt.html前言: 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时,单决策树又有一些不好的地方,比如说容转载 2014-04-04 09:31:37 · 12998 阅读 · 1 评论 -
机器学习中的算法:决策树模型组合之随机森林(Random Forest)
随机森林(Random Forest): 随机森林是一个最近比较火的算法,它有很多的优点: 在数据集上表现良好 在当前的很多数据集上,相对其他算法有着很大的优势 它能够处理很高维度(feature很多)的数据,并且不用做特征选择 在训练完后,它能够给出哪些feature比较重要 在创建随机森林的时候,对generlization error使用的原创 2014-05-13 14:15:02 · 43445 阅读 · 2 评论 -
交叉验证(Cross Validation)简介
以下简称交叉验证(Cross Validation)为CV.CV是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set),首先用训练集对分类器进行训练,在利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标.常见CV的方法如下:1).H原创 2014-05-27 11:56:55 · 47013 阅读 · 3 评论 -
机器学习中的相似性度量
在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯转载 2014-08-08 11:40:12 · 1177 阅读 · 0 评论