
Machine learning
文章平均质量分 70
夜月xl
这个作者很懒,什么都没留下…
展开
-
收藏!斯坦福Andrew Ng教授“机器学习”26篇教程全译
摘要:机器学习与数据挖掘!重中之重,热中之热。要“深入浅出,要言不烦,不卖关子,不摆噱头”讲清楚机器学习,斯坦福大学教授Andrew Ng做到了。这是他的26篇教程的翻译,建议收藏。机器学习与数据挖掘!重中之重,热中之热。每一篇在优快云云计算频道发表的相关文章都获得无数响应与评价。我们一直在思考如何能将文章汇聚成系列,并建立了“机器学习”的tag,但要从浅入深,汇聚前沿,点评发展,并转载 2014-07-26 09:50:52 · 2101 阅读 · 0 评论 -
谱聚类算法(Spectral Clustering)
谱聚类算法(Spectral Clustering) – 文赛平 – 博客园. 谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远,以达到常见的聚类的目的。其中的最优是指最优目标函数不同,可以是割边最小分割——如图1的Smallest cut(如后文的Min cut转载 2014-11-13 19:14:43 · 1044 阅读 · 0 评论 -
谱聚类-图的概念
转自:http://guoxinmiao8.blog.sohu.com/159956578.html这里面,最简单的一个概念就是“图”(Graph),它用于表示事物之间的相互联系。每个图有一批节点(Node),每个节点表示一个对象,通过一些边 (Edge)把这些点连在一起,表示它们之间的关系。就这么一个简单的概念,它对学术发展的意义可以说是无可估量的。几乎所有领域研究的东西,都是存在相互联系的转载 2014-12-05 12:10:43 · 1850 阅读 · 0 评论 -
bootstrps 、bagging与 boosting
bootstrps bagging boosting这几个概念经常用到,现仔细学习了一下: 他们都属于集成学习方法,(如:Bagging,Boosting,Stacking),将训练的学习器集成在一起,原理来源于PAC学习模型(Probably Approximately CorrectK)。Kearns和Valiant指出,在PAC学习模型中,若存在一个多项式级的学习算法来识别转载 2014-12-23 14:58:40 · 529 阅读 · 0 评论 -
Discover Feature Engineering, How to Engineer Features and How to Get Good at It
http://machinelearningmastery.com/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/Feature engineering is an informal topic, but one that is absolutely known a转载 2015-03-26 13:34:08 · 828 阅读 · 0 评论 -
准确率召回率
http://blog.sina.com.cn/s/blog_4b59de070100ehl7.html最近一直在做相关推荐方面的研究与应用工作,召回率与准确率这两个概念偶尔会遇到,知道意思,但是有时候要很清晰地向同学介绍则有点转不过弯来。召回率和准确率是数据挖掘中预测、互联网中的搜索引擎等经常涉及的两个概念和指标。召回率:Recall,又称“查全率”——还是查全率好记,也转载 2015-04-14 15:12:58 · 769 阅读 · 0 评论 -
机器学习常见的六大错误
来源:36大数据 作者:LinkinPark现一个key-value的数据库,那么有很多种模式都可以实现,但是他们最终所达到的效果却是千差万别的。同样,在机器学习领域,如果我想实现一个分类器,也有很多种算法,但是每种算法都对数据做了不同的前提假设。曾经当我们处理少量数据的时候,我们往往可以先设计若干种算法,然后每种都测试一下,选择一种最优的方法,但是当面对大数据时,我们就需要转变一转载 2015-04-15 12:17:31 · 529 阅读 · 0 评论 -
偏最小二乘回归(PLSR)- 2 标准算法(NIPALS)
http://www.cnblogs.com/pegasus/p/3396085.html1 NIPALS 算法Step1:对原始数据X和Y进行中心化,得到X0和Y0。从Y0中选择一列作为u1,一般选择方差最大的那一列。注:这是为了后面计算方便,如计算协方差时,对于标准化后的数据,其样本协方差为cov(X,Y)=XTY/(n-1)。Ste转载 2015-07-21 16:11:51 · 6457 阅读 · 0 评论 -
交叉验证(CrossValidation)方法思想简介
以下简称交叉验证(Cross Validation)为CV.CV是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set),首先用训练集对分类器进行训练,在利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标.常见CV的方法如下:1)原创 2014-10-26 09:29:48 · 1007 阅读 · 0 评论 -
浅谈 Adaboost 算法
菜鸟最近开始学习machine learning。发现adaboost 挺有趣,就把自己的一些思考写下来。主要参考了http://stblog.baidu-tech.com/?p=19,其实说抄也不为过,但是我添加了一些我认为有意思的东西,所以我还是把它贴出来了,呵呵。一 Boosting 算法的起源boost 算法系列的起源来自于PAC Learnabilit转载 2014-11-05 15:04:11 · 503 阅读 · 0 评论 -
Coursera公开课笔记: 斯坦福大学机器学习第九课“神经网络的学习(Neural Networks: Learning)”
斯坦福大学机器学习斯坦福大学机器学习第九课“神经网络的学习(Neural Networks: Learning)”学习笔记,本次课程主要包括8部分:1) Cost function(代价函数)2) Backpropagation algorithm(BP算法 or 反向传播算法)3) Backpropagation intuition(BP算法的直观解释)4转载 2014-08-06 19:06:06 · 1655 阅读 · 0 评论 -
09: Neural Networks - Learning
Neural network cost functionNNs - one of the most powerful learning algorithmsIs a learning algorithm for fitting the derived parameters given a training set Let's have a first look at a neur转载 2014-08-06 19:42:40 · 1589 阅读 · 0 评论 -
斯坦福大学机器学习笔记(英文版)
Stanford Machine LearningThe following notes represent a complete, stand alone interpretation of Stanford's machine learning course presented by Professor Andrew Ng and originally posted on the ml转载 2014-08-07 15:27:20 · 1111 阅读 · 0 评论 -
机器学习中的数学-强大的矩阵奇异值分解(SVD)及其应用
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上篇文章中便是基于特征值分解的一种解转载 2014-08-09 14:29:40 · 955 阅读 · 0 评论 -
UCI数据集和源代码
UCI数据集是一个常用的标准测试数据集,下载地址在http://www.ics.uci.edu/~mlearn/MLRepository.html我的主页上也有整理好的一些UCI数据集:http://lamda.nju.edu.cn/yuy/files/download/UCI_arff.zip在看别人的论文时,别人使用的数据集会给出数据集的出处或下载地址(除非是很机密的数据,转载 2014-08-21 22:58:34 · 853 阅读 · 0 评论 -
libsvm 参数说明
English:libsvm_options:-s svm_type : set type of SVM (default 0) 0 -- C-SVC 1 -- nu-SVC 2 -- one-class SVM 3 -- epsilon-SVR 4 -- nu-SVR-t kernel_type转载 2014-11-25 19:13:19 · 607 阅读 · 0 评论 -
神经网络中隐层数和隐层节点数问题的讨论
神经网络中隐层数和隐层节点数问题的讨论一 隐层数 一般认为,增加隐层数可以降低网络误差(也有文献认为不一定能有效降低),提高精度,但也使网络复杂化,从而增加了网络的训练时间和出现“过拟合”的倾向。一般来讲应设计神经网络应优先考虑3层网络(即有1个隐层)。一般地,靠增加隐层节点数来获得较低的误差,其训练效果要比增加隐层数更容易实现。对于没有隐层的神经网络模型,实际上就是一个转载 2014-11-04 12:50:46 · 44801 阅读 · 0 评论 -
SVM三种寻优方法matlab代码 grid search、GA、PSO
文章转自:http://www.matlabsky.com/thread-12414-1-1.html基于GridSearch的svm参数寻优http://www.matlabsky.com/thread-12411-1-1.html基于GA的svm参数寻优http://www.matlabsky.com/thread-12412-1-1.html===转载 2014-10-26 09:27:46 · 37351 阅读 · 13 评论 -
Python偏最小二乘回归(PLSR)测试
scikit learn机器学习包中包含了偏最小二乘回归,所以可以调用对应的函数来实现class sklearn.cross_decomposition.PLSRegression(n_components=2, scale=True, max_iter=500, tol=1e-06, copy=True)参数信息:Parameters:n_comp原创 2015-12-15 09:47:14 · 34727 阅读 · 14 评论