
机器学习
SmallCSer
这个作者很懒,什么都没留下…
展开
-
exponential family
原文地址:http://blog.youkuaiyun.com/richard2357/article/details/16969335在机器学习中,几乎到处都可以见到exponential family的影子。从伯努利分布,高斯分布,logistic回归,最大熵,都与exponential family息息相关。找了很久的资料,后来发现来自【1】中的讲解最好最清楚。本文是对其的摘录和理解。e转载 2014-03-11 14:55:08 · 898 阅读 · 0 评论 -
HMM序列标注资料
有监督HMM模型构建自己写中文分词之(三)_用HMM模型实现无词表分词 http://blog.youkuaiyun.com/yutianzuijin/article/details/33292841HMM的训练: http://blog.youkuaiyun.com/caoeryingzi/article/details/5755854原创 2017-03-08 10:03:48 · 884 阅读 · 0 评论 -
seq2seq笔记
Learning Phrase Representation using RNN Encode-Decoder for Statistical Machine Translation http://www.zmonster.me/notes/phrase_representation_using_rnn_encoder_decoder.htm TensorFlow中Sequence-to-S转载 2017-03-08 14:48:49 · 668 阅读 · 0 评论 -
各种优化方法总结比较(sgd/momentum/Nesterov/adagrad/adadelta)
http://blog.youkuaiyun.com/luo123n/article/details/48239963前言这里讨论的优化问题指的是,给定目标函数f(x),我们需要找到一组参数x,使得f(x)的值最小。本文以下内容假设读者已经了解机器学习基本知识,和梯度下降的原理。SGDSGD指stochastic gradient descent,即随机梯度下降。是转载 2017-07-14 11:16:28 · 436 阅读 · 0 评论 -
海量数据相似查找系列1 -- Minhashing & LSH & Simhash 技术汇总
最近把海量数据如何进行相似查找技术进行个大体汇总,包括高维稀疏数据和稠密数据。这一节重点针对高维稀疏数据情况,说如何通过哈希技术进行快速进行相似查找。试想个案例,就拿推荐系统中item-user矩阵说事。如果你有item数量是百万级别,user是千万级别,这个矩阵是十分稀疏的。你如何计算每一个item的Top N相似item呢? 同样海量文本场景,文本集合可以看成doc-word 稀疏转载 2017-09-28 20:20:39 · 958 阅读 · 0 评论 -
海量数据相似查找系列2 -- Annoy算法
上面一章说了下高维稀疏数据如何通过learning to hash的方法来进行相似查找,这种主要想说下另外一种情况,稠密向量如何进行快速相似查找呢?还是以文本为例吧。之前提到过文本的paragraph2vector的向量表示,以及词word2vector向量表示形式。一旦文档变成这种稠密向量形式,那如何从海量文本中快速查找出相似的Top N 文本呢?所以这里重点想说下Annoy(Approxi转载 2017-09-28 20:21:38 · 3984 阅读 · 2 评论 -
【转】Windows下使用libsvm中的grid.py和easy.py进行参数调优
libsvm中有进行参数调优的工具grid.py和easy.py可以使用,这些工具可以帮助我们选择更好的参数,减少自己参数选优带来的烦扰。所需工具:libsvm、gnuplot本机环境:Windows7(64 bit) ,Python3.51、相关程序的下载和安装:1.1、下载libsvm,我用的是libsvm-3.18.zip,下载后直接解压到任意位置,我解压到C:\libsvm转载 2017-09-22 17:29:22 · 583 阅读 · 0 评论 -
随机森林
在机器学习中,随机森林由许多的决策树组成,因为这些决策树的形成采用了随机的方法,因此也叫做随机决策树。随机森林中的树之间是没有关联的。当测试数据进入随机森林时,其实就是让每一颗决策树进行分类,最后取所有决策树中分类结果最多的那类为最终的结果。因此随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林可以既可以处理属性为离散值的量,比如ID3算法,也可以处理属转载 2017-10-15 20:07:54 · 573 阅读 · 0 评论 -
SVM实现多分类的三种方案
SVM本身是一个二值分类器 SVM算法最初是为二值分类问题设计的,当处理多类问题时,就需要构造合适的多类分类器。 目前,构造SVM多类分类器的方法主要有两类 (1)直接法,直接在目标函数上进行修改,将多个分类面的参数求解合并到一个最优化问题中,通过求解该最优化问题“一次性”实现多类分类。这种方法看似简单,但其计算复杂度比较高,实现起来比较困难,只适合用于小型问题中;转载 2017-10-16 23:13:52 · 7431 阅读 · 0 评论 -
机器学习常见算法个人总结
http://kubicode.me/2015/08/16/Machine%20Learning/Algorithm-Summary-for-Interview/#KNN算法转载 2017-02-24 11:28:28 · 365 阅读 · 0 评论 -
极大似然估计和贝叶斯估计
转载于http://blog.sciencenet.cn/blog-520608-703219.html极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。频率派认为,参数是客观存在的,只是未知而矣。因此,频率派最关心极大似然函数,只要参数求出来了,给定自变量X,Y也就固定了,极大似然估计如下所示:D表示训练数据集,是模型参数相反的,贝叶斯转载 2016-05-13 17:33:54 · 927 阅读 · 0 评论 -
机器学习中的相似性度量
from http://blog.sina.com.cn/s/blog_ab3fbf1b0101jfj1.html在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。本文的目的就是对常用的相似性度量作一个总结。本文目录:转载 2015-11-03 14:31:12 · 237 阅读 · 0 评论 -
SVM入门(四、五)线性分类器的求解——问题的描述
转载自:http://www.blogjava.net/zhenandaci/category/31868.html 上节说到我们有了一个线性分类函数,也有了判断解优劣的标准——即有了优化的目标,这个目标就是最大化几何间隔,但是看过一些关于SVM的论文的人一定记得什么优化的目标是要最小化||w||这样的说法,这是怎么回事呢?回头再看看我们对间隔和几何间隔的定义:间隔:δ=y(wx+b)转载 2014-04-01 20:19:25 · 754 阅读 · 0 评论 -
SVM入门(七)为何需要核函数
生存?还是毁灭?——哈姆雷特 可分?还是不可分?——支持向量机 之前一直在讨论的线性分类器,器如其名(汗,这是什么说法啊),只能对线性可分的样本做处理。如果提供的样本线性不可分,结果很简单,线性分类器的求解程序会无限循环,永远也解不出来。这必然使得它的适用范围大大缩小,而它的很多优点我们实在不原意放弃,怎么办呢?是否有某种方法,让线性不可分的数据变得线性可分呢?有!其思想说来也简单,来转载 2014-04-02 12:33:54 · 592 阅读 · 0 评论 -
SVM入门(六)线性分类器的求解——问题的转化,直观角度
让我再一次比较完整的重复一下我们要解决的问题:我们有属于两个类别的样本点(并不限定这些点在二维空间中)若干,如图, 圆形的样本点定为正样本(连带着,我们可以把正样本所属的类叫做正类),方形的点定为负例。我们想求得这样一个线性函数(在n维空间中的线性函数):g(x)=wx+b 使得所有属于正类的点x+代入以后有g(x+)≥1,而所有属于负类的点x-代入后有g(x-)≤-1(之所以总跟转载 2014-04-02 09:20:49 · 558 阅读 · 0 评论 -
SVM入门(一)SVM的八股简介
原文地址:http://www.blogjava.net/zhenandaci/archive/2008/06/20/209446.html(一)SVM的八股简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。转载 2014-04-01 18:28:13 · 559 阅读 · 0 评论 -
SVM入门(二、三)线性分类器
转自:http://www.blogjava.net/zhenandaci/archive/2008/07/07/212964.html线性分类器(一定意义上,也可以叫做感知机) 是最简单也很有效的分类器形式.在一个线性分类器中,可以看到SVM形成的思路,并接触很多SVM的核心概念.用一个二维空间里仅有两类样本的分类问题来举个小例子。如图所示 :C1和C2是要区分的两个类别,在二维转载 2014-04-01 19:07:13 · 924 阅读 · 0 评论 -
SVM入门(八)松弛变量
现在我们已经把一个本来线性不可分的文本分类问题,通过映射到高维空间而变成了线性可分的。就像下图这样: 圆形和方形的点各有成千上万个(毕竟,这就是我们训练集中文档的数量嘛,当然很大了)。现在想象我们有另一个训练集,只比原先这个训练集多了一篇文章,映射到高维空间以后(当然,也使用了相同的核函数),也就多了一个样本点,但是这个样本的位置是这样的: 就是图中黄色那个点,它是方转载 2014-08-07 17:32:58 · 730 阅读 · 0 评论 -
SVM入门(九)将SVM用于多类分类
从 SVM的那几张图可以看出来,SVM是一种典型的两类分类器,即它只回答属于正类还是负类的问题。而现实中要解决的问题,往往是多类的问题(少部分例外,例如垃圾邮件过滤,就只需要确定“是”还是“不是”垃圾邮件),比如文本分类,比如数字识别。如何由两类分类器得到多类分类器,就是一个值得研究的问题。还以文本分类为例,现成的方法有很多,其中一种一劳永逸的方法,就是真的一次性考虑所有样本,并求解一个多目标转载 2014-08-07 17:36:11 · 612 阅读 · 0 评论 -
支持向量机通俗导论(理解SVM的三层境界)
出处:http://blog.youkuaiyun.com/v_july_v/article/details/7624837转载 2014-08-07 16:49:22 · 592 阅读 · 0 评论 -
LDA-math
挖个坑:http://cos.name/?s=LDA转载 2014-07-04 15:54:37 · 509 阅读 · 0 评论 -
使用scikit-learn做线性回归
官方文档中的例子:print(__doc__)# Code source: Jaques Grobler# License: BSD 3 clauseimport matplotlib.pyplot as pltimport numpy as npfrom sklearn import datasets, linear_model# Load the diabetes d原创 2015-04-08 16:50:15 · 971 阅读 · 0 评论 -
使用python的机器学习算法包scikit-learn
文档写的非常好,带有例子程序。地址:http://scikit-learn.org/dev/index.html原创 2015-04-08 16:51:47 · 1985 阅读 · 0 评论 -
传播最广的一篇SVM算法博文
又有很长的一段时间没有更新博客了,距离上次更新已经有两个月的时间了。其中一个很大的原因是,不知道写什么好,最近一段时间看了看关于SVM(Support Vector Machine)的文章,觉得SVM是一个非常有趣,而且自成一派的方向,所以今天准备写一篇关于关于SVM的文章。关于SVM的论文、书籍都非常的多,引用强哥的话“SVM是让应用数学家真正得到应用的一种算法”。SVM对于大部分的转载 2015-08-11 10:17:51 · 544 阅读 · 0 评论