
Machine Learning
文章平均质量分 81
Rachel-Zhang
yiyan程序员 https://weibo.com/u/2607574543
展开
-
Dialog System 总结
本文包括对话系统分类、数据汇总、和一些目前对话系统paper的总结、评价。以下paper的“一句话评论”均为个人观念,评价标准苛刻,也有可能夸大了论文的缺点,希望与持不同意见的各位有识之士共同讨论。原创 2016-12-09 23:17:37 · 38166 阅读 · 19 评论 -
Matlab并行编程<cellfun & arrayfun>
本篇blog针对两个函数cellfun和arrayfun对程序的加速写一些东西,方便大家调的一手好参数。之前的一篇blog《Matlab并行编程方法》在具体实现时可能有问题(下面会讲),而我查到的对Matlab并行的讲解资料也没有写明这个问题。。。所以这里提一下比较实用的matlab并行加速方法,本篇的出现感谢@王小川_Matlab的热心指点。原创 2014-02-15 20:49:16 · 16747 阅读 · 3 评论 -
python并行调参——scikit-learn grid_search
上篇应用scikit-learn做文本分类中以20newsgroups为例讲了如何用三种方法提取训练集=测试集的文本feature,但是vectorizer取多少个word呢?预处理时候要过滤掉tf>max_df的words,max_df设多少呢?tfidftransformer只用tf还是加idf呢?classifier分类时迭代几次?学习率怎么设?……“循环一个个试过来啊”……啊好吧,matlab里就是这么做的……好在scikit-learn中提供了pipeline(for estimat原创 2014-04-17 14:12:28 · 35890 阅读 · 16 评论 -
应用scikit-learn做文本分类
文本挖掘的paper没找到统一的benchmark,只好自己跑程序,走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类(最好要所有类分类结果,全部或取部分特征无所谓)麻烦留言告知下现在的benchmark,万谢!嗯,说正文。20newsgroups官网上给出了3个数据集,这里我们用最原始的20news-19997.tar.gz。分为以下几个过程:1.加载数据集2.提feature3.分类{Naive Bayes,KNN,SVM}4.聚类说明: scipy官网上有参考原创 2014-04-13 20:53:15 · 99357 阅读 · 50 评论 -
Decision Tree 及实现
本文基于python逐步实现Decision Tree(决策树),分为以下几个步骤:1.加载数据集2.熵的计算3.根据最佳分割feature进行数据分割4.根据最大信息增益选择最佳分割feature5.递归构建决策树6.样本分类将分别体现于代码。原创 2014-03-17 12:12:15 · 31189 阅读 · 41 评论 -
统计学习方法——CART, Bagging, Random Forest, Boosting
本文从统计学角度讲解了CART(Classification And Regression Tree), Bagging(bootstrap aggregation), Random Forest Boosting四种分类器的特点与分类方法,参考材料为密歇根大学Ji Zhu的pdf与组会上王博的讲解。CART(Classification And Regression Tree)原创 2012-11-10 09:46:34 · 85485 阅读 · 25 评论 -
opencv 人脸识别 (一)训练样本的处理
本文实现基于eigenface的人脸检测与识别。给定一个图像数据库,进行以下步骤:进行人脸检测,将检测出的人脸存入数据库2对数据库2进行人脸建模在测试集上进行recognition本篇实现第一步:进行人脸检测,将检测出的人脸存入数据库2原创 2014-03-04 13:15:15 · 79296 阅读 · 59 评论 -
K近邻分类算法实现 in Python
K近邻(KNN):分类算法* Machine Learning的Python库很多,比如mlpy,这里实现只是为了掌握方法* MATLAB 中的调用,见《MATLAB分类器大全(svm,knn,随机森林等)》* 算法复杂度高(可用KD树优化,C中可以用libkdtree或者ANN)* k越小越容易过拟合,但是k很大会降分类精度(设想极限情况:k=1和k=N(样本数))本文不原创 2014-03-02 14:37:24 · 20869 阅读 · 14 评论 -
opencv 人脸识别 (二)训练和识别
上一篇中我们对训练数据做了一些预处理,检测出人脸并保存在\pic\color\x文件夹下(x=1,2,3,...类别号),本文做训练和识别。为了识别,首先将人脸训练数据 转为灰度、对齐、归一化,再放入分类器(EigenFaceRecognizer),最后用训练出的model进行predict。-----------------------------------------环境:vs2010+op原创 2014-03-04 13:21:09 · 41893 阅读 · 76 评论 -
KMeans和KMedoid 的Matlab实现
KMeans和KMedoid算法是聚类算法中比较普遍的方法,本文讲了其原理和matlab中实现的代码。1.目标: 找出一个分割,使得距离平方和最小2.K-Means算法: 1. 将数据分为k个非空子集 2. 计算每个类中心点(k-means中用所有点的平均值,K-medoid用离该平均值最近的一个点)center 3. 将每个object聚类到最近的原创 2012-11-18 20:26:15 · 55839 阅读 · 52 评论 -
聚类算法K-Means, K-Medoids, GMM, Spectral clustering,Ncut
聚类算法是ML中一个重要分支,一般采用unsupervised learning进行学习,本文根据常见聚类算法分类讲解K-Means, K-Medoids, GMM, Spectral clustering,Ncut五个算法在聚类中的应用。Clustering Algorithms分类1. Partitioning approach: 建立数据的不同分割,然后用相同标准评价聚类结果。原创 2012-11-11 13:44:48 · 124159 阅读 · 47 评论 -
Convolution Neural Network (CNN) 原理与实现
本文结合Deep learning的一个应用,Convolution Neural Network 进行一些基本应用,参考Lecun的Document 0.1进行部分拓展,与结果展示(in python)。分为以下几部分:1. Convolution(卷积)2. Pooling(降采样过程)3. CNN结构4. 跑实验下面分别介绍原创 2014-05-15 20:51:07 · 106177 阅读 · 51 评论 -
Matrix Factorization, Algorithms, Applications, and Avaliable packages
来源:http://www.cvchina.info/2011/09/05/matrix-factorization-jungle/美帝的有心人士收集了市面上的矩阵分解的几乎所有算法和应用,由于源地址在某神秘物质之外,特转载过来,源地址Matrix Decompositions has a long history and generally centers around a set of kno转载 2014-06-13 00:12:34 · 11594 阅读 · 5 评论 -
GMM-HMM语音识别模型 原理篇
本文简明讲述GMM-HMM在语音识别上的原理,建模和测试过程。这篇blog只回答三个问题:1. 什么是Hidden Markov Model?2. GMM是神马?怎样用GMM求某一音素(phoneme)的概率?3. 用GMM+HMM大法解决语音识别原创 2014-05-28 20:52:33 · 108888 阅读 · 45 评论 -
12 papers to understand QA system with Deep Learning
由于最近入手NLP任务,需要看一些paper,本文对最近两周看的paper做个总结,适用于有deep learning背景,希望了解NLP应用的同学,主要针对NLP方向: 问答系统(QA)和翻译(Machine Translation)。本文提到的12篇paper比较有代表性,这里感谢总理和江哥提供部分参考paper和指导帮助。论文列表:(其中QA为Question Answer的缩写)Neura原创 2016-04-24 16:36:10 · 36898 阅读 · 22 评论 -
Residual Networks <2015 ICCV, ImageNet 图像分类Top1>
本文介绍一下2015 ImageNet中分类任务的冠军——MSRA何凯明团队的Residual Networks。实际上,MSRA是今年Imagenet的大赢家,不单在分类任务,MSRA还用residual networks赢了 ImageNet的detection, localization, 以及COCO数据集上的detection和segmentation, 那本文就简单分析下Residual原创 2016-01-15 00:04:43 · 26741 阅读 · 13 评论 -
MC, MCMC, Gibbs采样 原理&实现(in R)
本文用讲一下指定分布的随机抽样方法:MC(Monte Carlo), MC(Markov Chain), MCMC(Markov Chain Monte Carlo)的基本原理,并用R语言实现了几个例子:1. Markov Chain (马尔科夫链)2. Random Walk(随机游走)3. MCMC具体方法: 3.1 M-H法 3.2 Gibbs采样 PS:本篇blog为ese机器学习短期班参考资料(20140516课程)。原创 2014-05-15 19:50:44 · 91948 阅读 · 28 评论 -
EM算法原理
在聚类中我们经常用到EM算法(i.e. Expectation - Maximization)进行参数估计, 在该算法中我们通过函数的凹/凸性,在expectation 和maximization两步中迭代地进行参数估计,并保证可以算法收敛,达到局部最优解。PS:为了不在11.11这个吉祥的日子发blog,还是打算今天发了,祝单身coder节日快乐,心情愉快~~由于公式实在太多,这里我就原创 2012-11-10 23:49:42 · 98084 阅读 · 51 评论 -
word2vec——高效word特征求取
继上次分享了经典统计语言模型,最近公众号中有很多做NLP朋友问到了关于word2vec的相关内容, 本文就在这里整理一下做以分享。 本文分为概括word2vec 相关工作模型结构 Count-based方法 vs. Directly predict几部分,暂时没有加实验章节,但其实感觉word2vec一文中实验还是做了很多工作的,希望大家有空最好还是看一下。原创 2015-06-07 16:07:36 · 36827 阅读 · 6 评论 -
经典统计语言模型
本文介绍三个经典统计语言模型, HAL,LSA, 与COALS.原创 2015-06-01 23:11:24 · 15056 阅读 · 3 评论 -
CUDA系列学习(一)An Introduction to GPU and CUDA
本文从软硬件层面讲一下CUDA的结构,应用,逻辑和接口。分为以下章节:(一)、GPU与CPU(二)、CUDA硬件层面(三)、CUDA安装(四)、CUDA 结构与接口 4.1 Kernels 4.2 Thread,Block, Grid 4.3 Memory 4.4 Execution(五)、码HelloWorld——数组求和原创 2015-01-09 09:28:15 · 40101 阅读 · 13 评论 -
Image classification with deep learning常用模型
本文中,我会根据下大家image classification常用的cnn模型,针对cifar10(for 物体识别),mnist(for 字符识别)& ImageNet(for 物体识别)做一个model 总结。本文不讲coding(coding请见Convolution Neural Network (CNN) 原理与实现篇)本文不涉及公司内部资料,纯公开资料汇总好,本文就从数据集说起,对数据集不熟悉的小伙伴请先去了解下这3个数据集,下面我们针对每个数据集画出其通用模型。原创 2015-01-07 16:07:31 · 35280 阅读 · 47 评论 -
RNN-RBM for music composition 网络架构及程序解读
RNN(recurrent neural network)是神经网络的一种,主要用于时序数据的分析,预测,分类等。RNN的general介绍请见下一篇文章《Deep learning From Image to Sequence》。本文针对对deep learning有一点基础(神经网络基本training原理,RBM结构及原理,简单时序模型)的小伙伴讲一下Bengio一个工作(RNNRBM)的原理和实现。本文重点内容:针对RNN(recurrent neural network)一个应用:musi原创 2014-10-04 20:11:35 · 21446 阅读 · 9 评论 -
Deep learning From Image to Sequence
本文笔记旨在概括地讲deep learning的经典应用。内容太大,分三块。1. 回顾 deep learning在图像上的经典应用 1.1 Autoencoder 1.2 MLP 1.3 CNN<详细的见上一篇CNN>2. deep learning处理语音等时序信号 2.1 对什么时序信号解决什么问题 2.2 准备知识 2.2.1 Hidden Markov Model(HMM) 2.2.2 GMM-HMM for Speec原创 2014-10-10 09:19:50 · 22246 阅读 · 6 评论 -
MatLab2012b/MatLab2013b 分类器大全(svm,knn,随机森林等)
train_data是训练特征数据, train_label是分类标签。Predict_label是预测的标签。MatLab训练数据, 得到语义标签向量 Scores(概率输出)。1.逻辑回归(多项式MultiNomial logistic Regression)Factor = mnrfit(train_data, train_label);Scores = mnrval(Factor, tes转载 2013-12-05 10:50:30 · 56309 阅读 · 5 评论 -
Learning the parts of object by NMF
本文为Letters to nature上文章Learning the parts of objects by non-negativematrix factorization的读书笔记,针对如何基于NMF在神经网络中学习一个object的各层part做出理论上的分析,并在人脸part学习和text语义特征学习上做了相应实验。本文不含如何去解NMF,只给出非负约束下矩阵分解的结果。 Learnin原创 2013-02-12 11:30:11 · 11895 阅读 · 5 评论 -
Stanford机器学习---第六讲. 怎样选择机器学习方法、系统
本栏目(Machine learning)包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学习系统设计、SVM(Support Vector Machines 支持向量机)、聚类、降维、异常检测、大规模机器学习等章节。所有内容均来自Standford公开课machine learning中A原创 2012-07-29 00:10:52 · 63835 阅读 · 34 评论 -
Stanford机器学习---第十讲. 数据降维
本栏目(Machine learning)包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学习系统设计、SVM(Support Vector Machines 支持向量机)、聚类、降维、异常检测、大规模机器学习等章节。内容大多来自Standford公开课machine learning中An原创 2012-09-28 23:52:39 · 64118 阅读 · 37 评论 -
Karhunen-Loeve Transform (KLT) 原理及PCA应用
Karhunen-Loeve Transform(KLT)是一种数据变换与分析方式,常用于数据压缩和PCA降维。1. KLT是什么变换,KLT的目的是什么?KLT是对向量x做的一个正交变换y=Φx,目的是变换到y后去除数据相关性。PS:其中,Φ是x特征向量组成的矩阵,满足ΦTΦ=I,当x都是实数时,Φ是正交矩阵。2. 为什么说KLT可以去除数原创 2012-10-25 09:26:00 · 28149 阅读 · 3 评论 -
Stanford机器学习---第三讲. 逻辑回归和过拟合问题的解决 logistic Regression & Regularization
本栏目(Machine learning)包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学习系统设计、SVM(Support Vector Machines 支持向量机)、聚类、降维、异常检测、大规模机器学习等章节。所有内容均来自Standford公开课machine learning原创 2012-07-07 20:45:47 · 196328 阅读 · 89 评论 -
Stanford机器学习---第九讲. 聚类
本栏目(Machine learning)包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学习系统设计、SVM(Support Vector Machines 支持向量机)、聚类、降维、异常检测、大规模机器学习等章节。内容大多来自Standford公开课machine learning中原创 2012-08-28 13:51:12 · 28587 阅读 · 9 评论 -
Aprior算法简化算法——FP-Tree思想与实现
在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支,韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。支持度和置信度严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频繁项集就是所谓的“支持度”比较高的项集,下面解释一下支持度和置信度的概念。设事务数据库为:转载 2012-08-31 10:29:38 · 19878 阅读 · 22 评论 -
Stanford机器学习---第四讲. 神经网络的表示 Neural Networks representation
本栏目(Machine learning)包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学习系统设计、SVM(Support Vector Machines 支持向量机)、聚类、降维、异常检测、大规模机器学习等章节。所有内容均来自Standford公开课machine learning原创 2012-07-16 13:41:06 · 49501 阅读 · 16 评论 -
Stanford机器学习---第一讲. Linear Regression with one variable
本栏目(Machine learning)包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学习系统设计、SVM(Support Vector Machines 支持向量机)、聚类、降维、异常检测、大规模机器学习等章节。所有内容均来自Standford公开课machine learning原创 2012-06-28 20:38:26 · 82442 阅读 · 59 评论 -
Stanford机器学习---第七讲. 机器学习系统设计
本栏目(Machine learning)包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学习系统设计、SVM(Support Vector Machines 支持向量机)、聚类、降维、异常检测、大规模机器学习等章节。所有内容均来自Standford公开课machine learning原创 2012-08-06 14:49:36 · 24713 阅读 · 14 评论 -
GMM的EM算法实现
在 聚类算法K-Means, K-Medoids, GMM, Spectral clustering,Ncut一文中我们给出了GMM算法的基本模型与似然函数,在EM算法原理中对EM算法的实现与收敛性证明进行了详细说明。本文主要针对如何用EM算法在混合高斯模型下进行聚类进行代码上的分析说明。1. GMM模型:每个 GMM 由 K 个 Gaussian 分布组成,每个 Gaussian 称为一个“Co原创 2012-11-19 11:03:16 · 139542 阅读 · 82 评论 -
Matlab实现线性回归和逻辑回归: Linear Regression & Logistic Regression
本文为Maching Learning 栏目补充内容,为上几章中所提到单参数线性回归、多参数线性回归和 逻辑回归的总结版。旨在帮助大家更好地理解回归,所以我在Matlab中分别对他们予以实现,在本文中由易到难地逐个介绍。本讲内容:Matlab 实现各种回归函数=========================基本模型Y=θ0+θ1X1型---线性回归(直线拟合)解决过拟合问题---Regulari原创 2012-07-10 14:42:43 · 110966 阅读 · 34 评论 -
Stanford机器学习---第八讲. 支持向量机SVM
本栏目(Machine learning)包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学习系统设计、SVM(Support Vector Machines 支持向量机)、聚类、降维、异常检测、大规模机器学习等章节。所有内容均来自Standford公开课machine learning中A原创 2012-08-12 16:55:10 · 131700 阅读 · 89 评论 -
Comprehensions on Group NMF
最近看了一下group sparsity和group structure方面的东西,本文主要针对了其中一种在NMF上的应用得到的group sparsity总结了一些东西。这篇理论上的文章没有被引用很多,但是其在EEG上用Group NMF做得一篇文章倒是有些影响力的。具体参考reference吧。总的来说,group sparsity或者单纯的sparsity对于一些有物理意义的东西比较好解释,原创 2013-06-27 13:11:53 · 11115 阅读 · 6 评论 -
无监督特征学习——Unsupervised feature learning and deep learning
无监督学习近年来很热,先后应用于computer vision, audio classification和 NLP等问题,通过机器进行无监督学习feature得到的结果,其accuracy大多明显优于其他方法进行training。本文将主要针对Andrew的unsupervised learning,结合他的视频:unsupervised feature learning by Andrew N原创 2012-07-31 15:48:19 · 85663 阅读 · 66 评论