
机器学习
masikkk
北航计算机系研究生
展开
-
数学之美番外篇:平凡而又神奇的贝叶斯方法(1)——刘未鹏
概率论只不过是把常识用数学公式表达了出来。——拉普拉斯 记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫《贝叶斯方法》。当时数学系的课程还没有学到概率统计。我心想,一个方法能够专门写出一本书来,肯定很牛逼。后来,我发现当初的那个朴素归纳推理成立了——这果然是个牛的方法。前言 这是一篇关于贝叶斯方法的科普文,我会尽量转载 2012-09-20 14:41:28 · 5339 阅读 · 0 评论 -
数学之美番外篇:平凡而又神奇的贝叶斯方法(2)——刘未鹏
拼写纠正经典著作《人工智能:现代方法》的作者之一Peter Norvig曾经写过一篇介绍如何写一个拼写检查/纠正器的文章(原文在这里,徐宥的翻译版在这里,这篇文章很深入浅出,强烈建议读一读),里面用到的就是贝叶斯方法,这里我们不打算复述他写的文章,而是简要地将其核心思想介绍一下。首先,我们需要询问的是:“问题是什么?”问题是我们看到用户输入了一个不在字典中的单词,我们需要去猜测:“这个转载 2012-09-20 15:18:17 · 4167 阅读 · 0 评论 -
数学之美番外篇:平凡而又神奇的贝叶斯方法(4)——刘未鹏
模型比较理论(Model Comparasion)与贝叶斯奥卡姆剃刀(Bayesian Occam’s Razor)实际上,模型比较就是去比较哪个模型(猜测)更可能隐藏在观察数据的背后。其基本思想前面已经用拼写纠正的例子来说明了。我们对用户实际想输入的单词的猜测就是模型,用户输错的单词就是观测数据。我们通过:P(h|D)∝P(h)*P(D|h)来比较哪个模型最为靠谱。前面提到,光靠P(转载 2012-09-20 15:31:32 · 4217 阅读 · 1 评论 -
机器学习10大经典算法
机器学习10大经典算法1、C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;2)在树构造过程中进行剪枝;3)能够完成对连续属性的离散化处理;4)能够对不完整数据进行处理。C4.5算法转载 2012-10-28 15:32:55 · 2179 阅读 · 0 评论 -
数学之美番外篇:平凡而又神奇的贝叶斯方法(3)——刘未鹏
模型比较与奥卡姆剃刀1.再访拼写纠正介绍了贝叶斯拼写纠正之后,接下来的一个自然而然的问题就来了:“为什么?”为什么要用贝叶斯公式?为什么贝叶斯公式在这里可以用?我们可以很容易地领会为什么贝叶斯公式用在前面介绍的那个男生女生长裤裙子的问题里是正确的。但为什么这里?为了回答这个问题,一个常见的思路就是想想:非得这样吗?因为如果你想到了另一种做法并且证明了它也是靠谱的,那么将它与现在这个一比转载 2012-09-20 15:30:04 · 4184 阅读 · 0 评论 -
数学之美番外篇:平凡而又神奇的贝叶斯方法(5)——刘未鹏
最小描述长度原则贝叶斯模型比较理论与信息论有一个有趣的关联:P(h | D) ∝ P(h) * P(D | h)两边求对数,将右式的乘积变成相加:ln P(h | D) ∝ ln P(h) + ln P(D | h)显然,最大化P(h | D) 也就是最大化 ln P(h | D)。而ln P(h) + ln P(D | h)则可以解释为模型(或者称“假设”、“猜测”)h的编码转载 2012-09-20 15:36:39 · 3801 阅读 · 0 评论 -
数学之美番外篇:平凡而又神奇的贝叶斯方法(余下全文)——刘未鹏
4. 无处不在的贝叶斯以下我们再举一些实际例子来说明贝叶斯方法被运用的普遍性,这里主要集中在机器学习方面,因为我不是学经济的,否则还可以找到一堆经济学的例子。4.1 中文分词贝叶斯是机器学习的核心方法之一。比如中文分词领域就用到了贝叶斯。Google 研究员吴军在《数学之美》系列中就有一篇是介绍中文分词的,这里只介绍一下核心的思想,不做赘述,详细请参考吴军的文章(这里)。分词问题的转载 2012-09-21 16:22:58 · 6071 阅读 · 0 评论 -
机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)
回归与梯度下降: 回归在数学上来说是给定一个点集,能够用一条曲线去拟合之,如果这个曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归,回归还有很多的变种,如locally weighted回归,logistic回归,等等,这个将在后面去讲。 用一个很简单的例子来说明回归,这个例子来自很多的地方,也在很多的open source的软件中看到,比如说weka。转载 2012-09-24 13:08:32 · 1485 阅读 · 0 评论 -
用matlab实现感知机学习算法,训练分类器并解决井字游戏
function ganzhiji()%利用感知机学习算法训练分类器解决tic tac toe游戏问题%样本数据digitdata2.txt文件中,×是1,o是-1,b是0,positive是1,negative是-1%样本数据顺序进行了调整,1-250个是第一类,251-500个是第二类%利用前500个样本训练分类器,剩下458个样本做测试%digitdata中,×是1,o是2,b是3,positive是1,negative是-1A = importdata('digitdata2.txt'原创 2012-11-08 20:00:29 · 5077 阅读 · 3 评论