
mathmatics
文章平均质量分 64
xianlingmao
这个作者很懒,什么都没留下…
展开
-
模型选择的几种方法:AIC,BIC,HQ准则
经常地,对一堆数据进行建模的时候,特别是分类和回归模型,我们有很多的变量可供使用,选择不同的变量组合可以得到不同的模型,例如我们有5个变量,2的5次方,我们将有32个变量组合,可以训练出32个模型。但是哪个模型更加的好呢?目前常用有如下方法:AIC=-2 ln(L) + 2 k 中文名字:赤池信息量 akaike information criterionBIC=-2 ln(L)原创 2012-08-21 15:17:46 · 142300 阅读 · 7 评论 -
梯度、Hessian矩阵、平面方程的法线以及函数导数的含义
想必单独论及“ 梯度、Hessian矩阵、平面方程的法线以及函数导数”等四个基本概念的时候,绝大部分人都能够很容易地谈个一二三,基本没有问题。其实在应用的时候,这几个概念经常被混淆,本文试图把这几个概念之间的关系整理一下,以便应用之时得心应手。这四个概念中,Hessian矩阵是最不容易混淆,但却是很多人难以记住的概念,其它三个概念很容易记住,但却在某些时候很容易混淆。Hessi原创 2012-08-19 20:55:51 · 26982 阅读 · 0 评论 -
深入理解模拟退火算法(Simulated Annealing)
本文将对模拟退火算法(Simulated Annealing)进行介绍,深入理解这个算法。模拟退火算法和上一篇文章随机模拟算法中的Metropolis算法有着紧密的联系,在这里将详细探讨这种关系。我们先从这个算法要解决的问题出发,逐步引出相应的算法。(pku, sewm,shinning)一. 问题人们经常遇到这样的问题:在某个定义域S内,求某个函数f(x)的最小值,形式化为Min原创 2012-07-29 12:20:50 · 78161 阅读 · 2 评论 -
线性代数(二)--有限维向量空间和线性映射
上篇文章已经讨论了什么是线性代数,线性代数就是研究有限维向量空间中线性映射的学科。它由两个部件组成:有限维向量空间和线性映射本文主要研究有限维向量空间的性质以及线性映射。 (一)有限维向量空间关于有限维向量空间,最核心的观念是“结构”,(私下地认为,一切东西都是有结构的,结构是一切事物内在的一个属性,正如数的概念也是具有结构的,它能分为有理数和无理数等等各个具有不同性质的部件组原创 2012-06-26 11:00:54 · 23756 阅读 · 0 评论 -
线性代数(一)--什么是线性代数(兼论向量空间及其性质)
引子:学习机器学习到一定程度,必然就会碰到数学瓶颈的问题,在这些数学瓶颈中,线性代数是其中一个重要障碍。如果能够较为深入地理解线性代数,会大大提高机器学习的理解和应用能力。因此,决定写一个线性代数的系列,来记录自己重读线性代数的过程,与同道中人共勉。既然我们谈到线性代数,那么什么是线性代数呢?一句话:线性代数是关于有限维向量空间中线性映射的学科。上面的定义有两个加黑的地方:有限维向原创 2012-06-19 12:57:19 · 16563 阅读 · 2 评论 -
Dirichlet distribution的两种理解方式
Dirichlet distribution,对于做主题模型(topic model)研究特别的重要,因为很多模型之中都需要它作为先验分布。本来这个分布Wikipedia和大多数的教科书已经讲得非常清楚,没有必要在这里多介绍,但是最近在理解Dirichlet process过程中,发现从另外一个角度来理解Dirichlet Distribution,对于理解Dirichlet Process有原创 2012-04-22 20:22:14 · 25469 阅读 · 1 评论 -
狄利克雷过程(dirichlet process )的五种理解
狄利克雷过程(dirichlet process )是目前变参数学习(non parameter)非常流行的一个理论,很多的工作都是基于这个理论来进行的,如HDP(hierarchical dirichlet process)。下面我们谈谈dirichlet process的五种角度来理解它。第一种:原始定义:假设存在在度量空间\Theta上的分布H和一个参数\alpha,如果对于度量空间原创 2012-03-11 22:09:27 · 86680 阅读 · 5 评论 -
测度论--长度是怎样炼成的[zz]
<br />这篇文章是我见过的写得比较好的关于测度论的文章,它深入浅出,特转载于此,供更多人参考/学习<br /> <br /><br />[测度论学习]长度是怎样炼成的 (1)<br />长度是怎样炼成的? <br />源于 http://www.blog.edu.cn/user2/tchzhang/archives/2006/1359252.shtml<br />应小乐之请写的一个东西,其目的是为了回答以下问题:<br />点没有长度和面积,为什么由点组成的线和面会具有长度和面积? <br />“长度”转载 2010-08-24 19:47:00 · 26912 阅读 · 4 评论 -
zz数学之美系列二十一:布隆过滤器(Bloom Filter)
布隆过滤器决不会漏掉任何一个在黑名单中的可疑地址。但是,它有一条不足之处。也就是它有极小的可能将一个不在黑名单中的电子邮件地址判定为在黑名单中,因为有可能某个好的邮件地址正巧对应个八个都被设置成一的二进制位。好在这种可能性很小,我们把它称为误识概率。 在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也转载 2010-04-25 23:34:00 · 1826 阅读 · 0 评论 -
数学是科学技术的语言
我读了这篇文章,感同身受,故而转载如下: 从小学到大学都在学习数学,从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学,看起来好像掌握了这些数学知识,但是在工作中却很少真正用到这些知识,为什么? 最近在研究一种开源软件-CARROT2的源代码的时候,又一次感觉到数学在计算机技术中的不可动摇的基础作用,CARROT2是一种用于自动语言分类(聚类)的工具性软件,用JAVA转载 2010-04-25 23:19:00 · 2426 阅读 · 0 评论 -
zz数学是一种思考方式
数学的发展历史中,又包含了许多人无穷的创造力。光靠逻辑推理来一步步解决问题显然是不够的。很多数学问题的解决,都起源于某种直觉,某种创造性构建,甚至把许多表面不相关的东西牵连在一起思考。然后再通过逻辑严密的推导过程来完善它。 http://www.kuqin.com/math/20071126/2658.html 这几天有个读者来来去去给我写了几封 email ,问起我的观点:数学和编程转载 2010-04-25 23:06:00 · 1976 阅读 · 1 评论 -
zz数学故事:铺地锦绣
冉有是班上的小巧手,虽然他的数学成绩不是最好的,但不管是孔老师还是同学们,都一致认为他很聪明。俗话不是说了吗?心灵手巧嘛。但在我看来呢,心灵的人不一定手巧,象颜回学习不错,可是却连自己的一顿饭也不会煮,这让孔老师常常叹着气说,“颜回呀,你过得这么辛苦,拿着个破竹筐装饭,拿着勺子喝水,什么时候才学会照顾好自己呀?”要是拿颜回和冉有比起来,那可真是差太远了,光是用一个普普通通的鸡蛋,冉有就会做转载 2010-04-25 23:05:00 · 3554 阅读 · 0 评论 -
【zz】数学之美系列的网址
吴军同志以非常通俗的语言描述了计算机领域常用的算法和模型,特别是机器学习和IR领域包括,ME算法,markov过程等等,给了我很多直观的印象,非常棒,强烈推荐。但是在google黑板报已经不能访问了,其它转载的地方却又图片还是链接到google导致图片都不能访问,下面这个网站却很好地保存了文章的原貌,记录如下:http://www.kuqin.com/math/20071204/2原创 2010-04-25 22:46:00 · 3076 阅读 · 0 评论 -
zz数学之美番外篇:平凡而又神奇的贝叶斯方法
贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。 概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店转载 2010-04-25 23:15:00 · 4191 阅读 · 1 评论 -
随机模拟的基本思想和常用采样方法(sampling)
通常,我们会遇到很多问题无法用分析的方法来求得精确解,例如由于式子特别,真的解不出来;一般遇到这种情况,人们经常会采用一些方法去得到近似解(越逼近精确解越好,当然如果一个近似算法与精确解的接近程度能够通过一个式子来衡量或者有上下界,那么这种近似算法比较好,因为人们可以知道接近程度,换个说法,一般一个近似算法被提出后,人们通常都会去考察或寻求刻划近似程度的式子)。本文要谈的随机模拟就是一类近原创 2012-07-23 15:27:44 · 133307 阅读 · 24 评论