
机器学习
文章平均质量分 77
xianlingmao
这个作者很懒,什么都没留下…
展开
-
数学之美系列十六 -- 谈谈最大熵模型[zz]
数学之美系列十六 -- 谈谈最大熵模型2006年10月8日 上午 07:27:00 发表者:Google 研究员,吴军 [我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理(the maximum entropy principle)。这是一个非常有意思的题目,但是把转载 2010-04-05 17:03:00 · 2139 阅读 · 0 评论 -
随机模拟的基本思想和常用采样方法(sampling)
通常,我们会遇到很多问题无法用分析的方法来求得精确解,例如由于式子特别,真的解不出来;一般遇到这种情况,人们经常会采用一些方法去得到近似解(越逼近精确解越好,当然如果一个近似算法与精确解的接近程度能够通过一个式子来衡量或者有上下界,那么这种近似算法比较好,因为人们可以知道接近程度,换个说法,一般一个近似算法被提出后,人们通常都会去考察或寻求刻划近似程度的式子)。本文要谈的随机模拟就是一类近原创 2012-07-23 15:27:44 · 133306 阅读 · 24 评论 -
深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
在求取有约束条件的优化问题时,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最优值;如果含有不等式约束,可以应用KKT条件去求取。当然,这两个方法求得的结果只是必要条件,只有当是凸函数的情况下,才能保证是充分必要条件。KKT条件是拉格朗日乘子法的泛化。之前学习的时候,只知道直接应用两个方法,但是却原创 2012-09-22 17:05:52 · 434042 阅读 · 99 评论 -
模型选择的几种方法:AIC,BIC,HQ准则
经常地,对一堆数据进行建模的时候,特别是分类和回归模型,我们有很多的变量可供使用,选择不同的变量组合可以得到不同的模型,例如我们有5个变量,2的5次方,我们将有32个变量组合,可以训练出32个模型。但是哪个模型更加的好呢?目前常用有如下方法:AIC=-2 ln(L) + 2 k 中文名字:赤池信息量 akaike information criterionBIC=-2 ln(L)原创 2012-08-21 15:17:46 · 142300 阅读 · 7 评论 -
梯度、Hessian矩阵、平面方程的法线以及函数导数的含义
想必单独论及“ 梯度、Hessian矩阵、平面方程的法线以及函数导数”等四个基本概念的时候,绝大部分人都能够很容易地谈个一二三,基本没有问题。其实在应用的时候,这几个概念经常被混淆,本文试图把这几个概念之间的关系整理一下,以便应用之时得心应手。这四个概念中,Hessian矩阵是最不容易混淆,但却是很多人难以记住的概念,其它三个概念很容易记住,但却在某些时候很容易混淆。Hessi原创 2012-08-19 20:55:51 · 26982 阅读 · 0 评论 -
深入理解模拟退火算法(Simulated Annealing)
本文将对模拟退火算法(Simulated Annealing)进行介绍,深入理解这个算法。模拟退火算法和上一篇文章随机模拟算法中的Metropolis算法有着紧密的联系,在这里将详细探讨这种关系。我们先从这个算法要解决的问题出发,逐步引出相应的算法。(pku, sewm,shinning)一. 问题人们经常遇到这样的问题:在某个定义域S内,求某个函数f(x)的最小值,形式化为Min原创 2012-07-29 12:20:50 · 78161 阅读 · 2 评论 -
看懂信息检索和网络数据挖掘领域论文的必备知识总结
信息检索和网络数据领域(WWW, SIGIR, CIKM, WSDM, ACL, EMNLP等)的论文中常用的模型和技术总结引子:对于这个领域的博士生来说,看懂论文是入行了解大家在做什么的研究基础,通常我们会去看一本书。看一本书固然是好,但是有一个很大的缺点:一本书本身自成体系,所以包含太多东西,很多内容看了,但是实际上却用不到。这虽然不能说是一种浪费,但是却没有把有限力气花在刀口上。原创 2012-06-15 17:02:41 · 24826 阅读 · 6 评论 -
核方法(kernel method)的主要思想
本文对核方法(kernel method)进行简要的介绍。核方法的主要思想是基于这样一个假设:“在低维空间中不能线性分割的点集,通过转化为高维空间中的点集时,很有可能变为线性可分的” ,例如下图 左图的两类数据要想在一维空间上线性分开是不可能的,然而通过F(x)=(x-a)(x-b)把一维空间上的点转化为右图上的二维空间上,就是可以线性分割的了。然而,如果直接把低维度的数据转原创 2012-07-05 16:31:02 · 86402 阅读 · 16 评论 -
Jackknife,Bootstraping, bagging, boosting, AdaBoosting, Rand forest 和 gradient boosting的区别
Jackknife,Bootstraping, bagging, boosting, AdaBoosting, Rand forest 和 gradient boosting这些术语,我经常搞混淆,现在把它们放在一起,以示区别。(部分文字来自网络,由于是之前记的笔记,忘记来源了,特此向作者抱歉)Bootstraping: 名字来自成语“pull up by your own bootstr原创 2012-07-03 20:09:59 · 19923 阅读 · 0 评论 -
狄利克雷过程(dirichlet process )的五种理解
狄利克雷过程(dirichlet process )是目前变参数学习(non parameter)非常流行的一个理论,很多的工作都是基于这个理论来进行的,如HDP(hierarchical dirichlet process)。下面我们谈谈dirichlet process的五种角度来理解它。第一种:原始定义:假设存在在度量空间\Theta上的分布H和一个参数\alpha,如果对于度量空间原创 2012-03-11 22:09:27 · 86678 阅读 · 5 评论 -
Topic Model的分类和设计原则
topic model的介绍性文章已经很多,在此仅做粗略介绍,本文假设读者已经较为熟悉Topic Medel。Topic Model (LDA)认为一个离散数据集合(如文档集合,图片集合,为行文方便,本文统统以文档集合作为描述对象,其他的数据集合只需换掉对应的术语即可)是由隐含在数据集合背后的topic set 生成的,这个set中的每一个topic都是词的概率分布。对于文档中的每一篇文档,先原创 2011-12-13 17:12:14 · 25767 阅读 · 3 评论 -
话题模型(topic model)的提出及发展历史
topic model 是一种应用十分广泛的产生式模型(generative model),在IR, NLP,ML都有广泛的应用,本文将对目前已有的topic model进行分类总结,然后选择几个代表性的topic model进行较为详细的介绍,从而理解topic model 的思想,以及怎么应用。topic model最经典的模型之一是LDA(latent dirichlet alloc原创 2011-12-16 10:03:55 · 51090 阅读 · 3 评论 -
zz数学之美番外篇:平凡而又神奇的贝叶斯方法
贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。 概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店转载 2010-04-25 23:15:00 · 4191 阅读 · 1 评论 -
浅谈深度学习(Deep Learning)的基本思想和方法
深度学习(Deep Learning),又叫Unsupervised Feature Learning或者Feature Learning,是目前非常热的一个研究主题。本文将主要介绍Deep Learning的基本思想和常用的方法。一. 什么是Deep Learning?实际生活中,人们为了解决一个问题,如对象的分类(对象可是是文档、图像等),首先必须做的事情是如何来表达一个对象,即必原创 2013-01-07 22:18:06 · 91810 阅读 · 16 评论