基础机器学习理论
文章平均质量分 67
dllian
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
N元语法模型的数据稀疏问题解决方法之一:Good-Turing平滑
在统计语言模型章节中,我们谈到了N元语法模型不可避免的一个问题,就是数据稀疏,其原因是大规模语料统计与有限语料的矛盾。根据齐普夫(Zipf)法则,我们能够推测知零概率问题不可避免。数据稀疏问题的解决办法就是进行平滑处理。平滑处理的算法有很多,本文将介绍众多算法中的佼佼者:古德-图灵(Good-Turing)平滑算法。 古德-图灵(Good-Turing)估计法是很多平滑技术的核心,于1953转载 2012-04-24 10:09:56 · 10129 阅读 · 0 评论 -
从酒鬼失足到赌徒破产,悲剧收场为何注定
很多看似不相关的事物,在背后却能有着相似的数学原理。它们之间的联系时常让人觉得诧异。比如酒鬼和赌徒背后就有着神奇的相同之处。本文从一个荒诞的酒鬼掉下悬崖的故事开始,最终讲述了在赌场里看上去违背常理的举动其实是最有道理的这个事实。很多看似不相关的事物背后却有着千丝万缕的关系,比如今天故事的主角——酒鬼与赌徒。让我们从酒鬼在悬崖漫步这个荒诞的故事开始,算算他不幸转载 2012-05-22 16:00:19 · 3831 阅读 · 0 评论 -
混合高斯模型简谈
原理 : 高斯模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。 对图像背景建立高斯模型的原理及过程:图像灰度直方图反映的是图像中某个灰度值出现的频次,也可以认为是图像灰度概率密度的估计。如果图像所包含的目标区域和背景区域相比比较大,且背景区域和目标区域在灰度上有一定的差异,那么该图像的灰度直方图呈现双峰-谷形转载 2012-04-24 11:12:57 · 1090 阅读 · 0 评论 -
Discriminative Learning和Generative Learning的总体区别
Discriminative 学习算法是一类模型化输入(X)输出(Y)的关系的方法。Discriminative Learning要求X的各个项是相互独立变化的。只需了解X对Y的决定关系,即model P(Y|X).学习的结果就是X参数所决定的Y参数。Generative学习算法倒过来,是一类描述输出或中间参数(Y)产生输入参数(X)的概率的方法。需要的结果是其实也是model P(Y|X原创 2012-04-24 09:52:02 · 2404 阅读 · 0 评论 -
数据挖掘著名学者的网站(未完)
韩家炜http://www.cs.uiuc.edu/~hanj/著名数据挖掘书籍,《数据挖掘概念和技术》作者,在DM界久负盛名。他的个人主页里面有很多他的papers,都非常经典;还有他所教授的课程,可以下载课件学习。Jian Peihttp://www.cs.sfu.ca/~jpei/数据挖掘牛人,经常来中国讲授数据挖掘课程。个人主页上有他发表的数据挖掘相转载 2012-05-03 10:34:12 · 2838 阅读 · 0 评论 -
流形学习(manifold learning)综述
假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质,找到产生数据的内在规律。流形学习方法是模式识别中的基本方法,分为线性流形学习算法和非线性流形学习算法,线性方法就是传统的方法如主成分分析(PCA)和线性判别分析(LDA),非线行流形学习转载 2012-04-18 12:02:44 · 1687 阅读 · 2 评论 -
模糊系统:挑战与机遇并存——十年研究之感悟 王立新
http://www.ee.ust.hk/ece.phphttp://www.ee.ust.hk/~eewang/王立新 于1984和1987年在西北工业大学分别获学士和硕士学位 1992年于美南加州大学获博士学位。1993年至今任教于香 港科技大学电机与电子工程系。研究成果被广泛引用。现为Automatic和IEEE Transaction on Fuzzy Systems 的副转载 2012-04-18 11:49:00 · 10226 阅读 · 0 评论 -
层次分析法
层次分析法层次分析法(The analytic hierarchy process,简称AHP),也称层级分析法么是层次分析法 层次分析法(The analytic hierarchy process)简称AHP,在20世纪70年代中期由美国运筹学家托马斯·塞蒂(T.L.Saaty)正式提出。它是一种定性和定量相结合的、系统化、层次化的分析方法。由于它在处理复杂的决策问题转载 2012-04-13 18:59:49 · 4028 阅读 · 0 评论 -
(EM算法)The EM Algorithm
1. Jensen不等式 回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是向量时,如果其hessian矩阵H是半正定的(),那么f是凸函数。如果或者,那么称f是严格凸函数。 Jensen不等式表述如下: 如果f是凸函数,X是随机变量,那么 特别地,如果f是严转载 2012-04-25 16:25:38 · 677 阅读 · 0 评论 -
最大似然估计的原理
给定一个概率分布,假定其概率密度函数(连续分布)或概率聚集函数(离散分布)为,以及一个分布参数,我们可以从这个分布中抽出一个具有个值的采样,通过利用,我们就能计算出其概率:但是,我们可能不知道的值,尽管我们知道这些采样数据来自于分布。那么我们如何才能估计出呢?一个自然的想法是从这个分布中抽出一个具有个值的采样,然后用这些采样数据来估计.一旦我们获得,我们就能从中找到一个转载 2012-04-24 14:46:07 · 5064 阅读 · 0 评论 -
美女主动搭讪?小心数学陷阱
还记得玛丽莲•沃斯•莎凡特(Marilyn vos Savant)吗?她是吉尼斯世界记录认定的最高IQ人类,在杂志《Parade》上开过一个名叫“问问玛丽莲”(Ask Marilyn)的专栏,专门解决读者的各种疑难杂题,最著名的自然是 三门问题 ,她高明且不可思议的回答让无数人伤透了脑筋。不过常在河边站哪有不湿鞋,就是这样一个“IQ最高”的人,也有糊涂的时候。来看看这道连玛莉莲都回答错的题吧。转载 2012-05-22 16:37:52 · 1352 阅读 · 0 评论
分享