
machine learning
文章平均质量分 78
Kylin-Xu
A postdoc in the NYU Multimedia and Visual Computing Lab.
展开
-
Notes_on_MLIA_kNN
# k-nearest neighbor algorithm# function classify0# arguments: # inX: the new observation which is to be labeled by the algorithm# dataSet: train sample# labels: label for train sample# k: k in转载 2015-03-28 01:29:44 · 790 阅读 · 0 评论 -
k-折交叉验证(k-fold crossValidation)
k-折交叉验证(k-fold crossValidation):在机器学习中,将数据集A分为训练集(training set)B和测试集(testset)C,在样本量不充足的情况下,为了充分利用数据集对算法效果进行测试,将数据集A随机分为k个包,每次将其中一个包作为测试集,剩下k-1个包作为训练集进行训练。在matlab中,可以利用:indices=crossvalind('K转载 2014-04-07 02:15:17 · 56257 阅读 · 3 评论 -
关于crossvalind函数
关于crossvalind函数 crossvalind是cross-valindation的缩写,意即交叉检验。 常用的形式有: ①Indices =crossvalind('Kfold', N, K) ②[Train, Test] = crossvalind('HoldOut',N, P) ③[Train, Test] = crossvalind('LeaveMOut',N, M)转载 2014-04-22 15:00:16 · 2690 阅读 · 0 评论 -
高人对libsvm的经典总结
高人对libsvm的经典总结(全面至极) 2010-07-11 21:22:43| 分类: 代码算法|举报|字号 订阅http://www.ilovematlab.cn/viewthread.php?tid=74019&sid=vYpSs5SVM相关资源汇总[matlab-libsvm-class-regress](by faruto)S转载 2014-04-22 14:49:10 · 1068 阅读 · 0 评论 -
听课笔记(第五讲): 学习的可行性分析(一些概念和思想) (台湾国立大学机器学习基石)
2013-12-27 15:28:56Training versus Testing1,回顾:学习的可行性?最重要的是公式: (1) 假设空间H有限(M),且训练数据足够大,则可以保证测试错误率Eout 约等于训练错误率Ein;(2)如果能得到Ein 接近于零,根据(1),Eout 趋向于零。转载 2014-04-15 06:14:43 · 1140 阅读 · 0 评论 -
听课笔记(第六讲): 归纳理论(台大机器学习)
·上一讲重点是一些分析机器学习可行性的重要思想和概念,尤其是生长函数(growth function) 和突破点(break point) 的理解。这一讲开篇再介绍一个界函数(bounding function)的概念:是指当(最小)突破点为k 时,生长函数m(N) 可能的最大值,记为B(N, k)。显然,当k=1时,B(N, 1) = 1; 当k > N 时,转载 2014-04-15 06:14:12 · 1053 阅读 · 0 评论 -
机器学习基石
一,什么是机器学习?使用Machine Learning 方法的关键:1, 存在有待学习的“隐含模式”2, 该模式不容易准确定义(直接通过程序实现)3, 存在关于该模式的足够数据 这里的f 表示理想的方案,g 表示我们求解的用来预测的假设。H 是假设空间。通过算法A, 在假设空间中选择最好的假设作为g。选择转载 2014-04-15 03:01:10 · 881 阅读 · 0 评论 -
利用libsvm进行分类
这帖子就是初步教教刚接触libsvm(svm)的同学如何利用libsvm进行分类预测,关于 参数寻优 的问题在这里姑且不谈,另有帖子详述。其实使用libsvm进行分类很简单,只需要有属性矩阵和标签,然后就可以建立分类模型(model),然后利用得到的这个model进行分类预测了。那神马是属性矩阵?神马又是标签呢?我举一个直白的不能在直白的例子:说一个班级里面有两个男生(男生1、转载 2014-03-29 21:50:42 · 1513 阅读 · 0 评论 -
【综述】(MIT博士)林达华老师-"概率模型与计算机视觉”
转自:http://www.sigvc.org/bbs/thread-728-1-1.html距上一次邀请中国科学院的樊彬老师为我们撰写图像特征描述符方面的综述(http://www.sigvc.org/bbs/thread-165-1-1.html)之后,这次我们荣幸地邀请到美国麻省理工学院(MIT)博士林达华老师为我们撰写“概率模型与计算机视觉”的最新综述。这次我们特别增设了一转载 2014-01-18 22:38:21 · 2010 阅读 · 0 评论 -
单层网络模型下对无监督特征学习算法的分析
翻译 2014-01-13 20:51:35 · 1170 阅读 · 0 评论 -
Sparse Filtering稀疏滤波
Sparse Filtering稀疏滤波转自:http://blog.youkuaiyun.com/zouxy09 本文的论文来自:Sparse filtering , J. Ngiam, P. Koh, Z. Chen, S. Bhaskar, A.Y. Ng. NIPS2011。在其论文的支撑材料中有相应的Matlab代码,代码很简介。不过我还没读。转载 2013-12-25 22:49:58 · 1907 阅读 · 1 评论 -
What is the Best Multi-Stage Architecture for Object Recognition?
Deep Learning论文笔记之(六)Multi-Stage多级架构分析zouxy09@qq.comhttp://blog.youkuaiyun.com/zouxy09 自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样。所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己的理解也会更转载 2013-12-24 21:33:55 · 1529 阅读 · 0 评论 -
DeepLearnToolbox_DBN notes
Contentsex1 train a 100 hidden unit RBM and visualize its weightsex2 train a 100-100 hidden unit DBN and use its weights to initialize a NNfunction test_example_DBNload mnist_uint原创 2013-12-20 20:02:11 · 3349 阅读 · 2 评论 -
DeepLearnToolbox_CNN notes
Preliminaries: 1."Notes on Convolutional Neural Networks"2."Gradient-based learning applied to document recognition"Contentsex1 Train a 6c-2s-12c-2s Convolutional neural ne原创 2013-12-17 17:24:15 · 2629 阅读 · 6 评论 -
深度学习:推进人工智能的梦想
深度学习:推进人工智能的梦想2013-07-03 13:29 104人阅读 评论(0) 收藏 举报目录(?)[+]深度学习:采用无监督学习,获得更有用的特征(不需要人工抽取特征),以实现各种分类和预测目标,结合高性能计算,提高效率。通篇文字给人传递的信息就是,百度比Google牛,事实真的如此吗?各位有什么看法?摘要:深度转载 2013-12-15 16:29:18 · 2332 阅读 · 0 评论 -
听课笔记(第三讲): 机器学习的分类学 (台湾国立大学机器学习基石)
机器学习方法的分类学,通过不同的分类标准来讨论。一,根据输出空间来分类。1, 分类(classification)1.1 二值分类 (binary classification):输出为 {+1, -1}。1.2 多值分类 (multiclass classification):输出为有限个类别,{1, 2, 3, ... , K}2, 回归(regression)转载 2014-04-15 06:07:50 · 1121 阅读 · 0 评论 -
听课笔记(第十三讲): 过拟合 - Overfitting (台大机器学习)
1,什么是过拟合(overfitting)简单的说就是这样一种学习现象:Ein 很小,Eout 却很大。而Ein 和 Eout 都很大的情况叫做 underfitting。这是机器学习中两种常见的问题。 上图中,竖直的虚线左侧是"underfitting", 左侧是"overfitting”。发生overfitting转载 2014-04-15 06:09:17 · 821 阅读 · 0 评论 -
听课笔记(第十三讲): 过拟合 - Overfitting (台大机器学习)
1,什么是过拟合(overfitting)简单的说就是这样一种学习现象:Ein 很小,Eout 却很大。而Ein 和 Eout 都很大的情况叫做 underfitting。这是机器学习中两种常见的问题。 上图中,竖直的虚线左侧是"underfitting", 左侧是"overfitting”。发生overfitting转载 2014-04-15 06:09:48 · 863 阅读 · 0 评论 -
MP算法和OMP算法及其思想
2012-04-17 03:09 21199人阅读 评论(42) 收藏 举报算法orthogonalmatlabfunction工具主要介绍MP(Matching Pursuits)算法和OMP(Orthogonal Matching Pursuit)算法[1],这两个算法虽然在90年代初就提出来了,但作为经典的算法,国内文献(可能有我没有搜索到)都仅描述了算法步骤和简单的应用转载 2014-04-04 05:02:40 · 1687 阅读 · 0 评论 -
听课笔记(第九讲): 线性回归 (台大机器学习)
·1, 线性回归问题例如,信用卡额度预测问题:特征是用户的信息(年龄,性别,年薪,当前债务,...),我们要预测可以给该客户多大的信用额度。 这样的问题就是回归问题。目标值y 是实数空间R。线性回归假设: 线性回归假设的思想是:寻找这样的直线/平面/超平面,使得输入数据的残差最小。通常采用的转载 2014-04-15 06:12:20 · 880 阅读 · 0 评论 -
听课笔记(第四讲):学习的可行性分析 (台湾国立大学机器学习基石)
机器学习的可行性分析。一, 第一条准则: 没有免费的午餐!(no free lunch !)给一堆数据D, 如果任何未知的f (即建立在数据D上的规则)都是有可能的,那么从这里做出有意义的推理是不可能的!! doomed !!如下面这个问题无解(或者勉强说没有唯一解): 下面这题也是如此:转载 2014-04-15 06:07:14 · 1018 阅读 · 0 评论 -
听课笔记(第二讲): Perceptron-感知机 (台湾国立大学机器学习基石)
Learning to Answer Yes/No (二值分类)一, Perceptronx = (x1, x2, ..., xd) ---- featuresw = (w1, w2, ..., wd) ---- 未知(待求解)的权重对于银行是否发送信用卡问题: perceptron 假设:转载 2014-04-15 03:36:03 · 1830 阅读 · 0 评论 -
关于K-fold cross validation 下不同的K的选择的疑惑?
在K-fold cross validation 下 比较不同的K的选择对于参数选择(模型参数,CV意义下的估计的泛化误差)以及实际泛化误差的影响。更一般的问题,在实际模型选择问题中,选择几重交叉验证比较合适? 交叉验证的背景知识:CV是用来验证模型假设(hypothesis)性能的一种统计分析方法,基本思想是在某种意义下将原始数据进行分组,一部分作为训练集,一部分作为验证集,使用训练原创 2014-04-30 19:37:38 · 6136 阅读 · 0 评论 -
听课笔记(第七讲): VC维理论 (台大机器学习)
·上一讲的最后得到了VC bound,这一讲对VC维理论进行理解,这是机器学习(最)重要的理论基础。我们先对前面得到的生长函数和VC bound 做一点小的修改。 1,VC 维的定义VC Demension: 对于假设空间H,满足生长函数m(转载 2014-04-15 06:13:27 · 1517 阅读 · 0 评论 -
听课笔记(第八讲): 噪音和错误 (台大机器学习)
·当我们面对的问题不是完美的(无噪音)二值分类问题,VC 理论还有效吗?1,噪音和非确定性目标几种错误:(1) noise in y: mislabeled data; (2) noise in y: different labels for same x; (3) noise in x: error x.将包含噪音的y 看作是概率分布的,y ~ P(y转载 2014-04-15 06:12:47 · 1124 阅读 · 0 评论 -
听课笔记(第十讲): 逻辑斯蒂回归 (台大机器学习)
·上一讲是关于线性回归,重点是求解w 的解析方案(通过pseudo-inverse 求解w)。这一讲关注另一个很重要的方法,逻辑斯蒂回归(logistic regression)。林轩田对逻辑斯蒂回归的解释思路和Andrew Ng 还是有明显区别的,都十分有助于我们的理解;但要深究其数学意义,还要自己多钻研。1,逻辑斯蒂回归问题有一组病人的数据,我们转载 2014-04-15 06:11:42 · 1077 阅读 · 0 评论 -
听课笔记(第十一讲): 线性分类模型 (台大机器学习)
在上一讲中,我们了解到线性回归和逻辑斯蒂回归一定程度上都可以用于线性二值分类,因为它们对应的错误衡量(square error, cross-entropy) 都是“0/1 error” 的上界。1, 三个模型的比较1.1 分析Error Function本质上讲,线性分类(感知机)、线性回归、逻辑斯蒂回归都属于线性模型,因为它们的核心都是一个线性score 函数:转载 2014-04-15 06:11:07 · 840 阅读 · 0 评论 -
听课笔记(第十二讲): 非线性转换 (台大机器学习)
前面的分析都是基于“线性假设“,它的优点是实际中简单有效,而且理论上有VC 维的保证;然而,面对线性不可分的数据时(实际中也有许多这样的例子),线性方法不那么有效。1,二次假设对于下面的例子,线性假设显然不奏效: 我们可以看出,二次曲线(比如圆)可以解决这个问题。接下来就分析如何通过二次曲线假设解决线性方法无法处理的问题,转载 2014-04-15 06:10:24 · 1017 阅读 · 0 评论 -
videolectures上最火的100个机器学习的视频
videolectures上最火的100个机器学习的视频2013-07-03 13:31 98人阅读 评论(0) 收藏 举报Enjoy this weeks list!26971 views, 1:00:45, Gaussian Process Basics, David MacKay, 8 comments7799 views, 3:08:32, Intr转载 2013-12-15 16:27:16 · 1189 阅读 · 0 评论