
数学之美系列
Ellating123
这个作者很懒,什么都没留下…
展开
-
数学之美系列二:谈谈中文分词
一般来讲,根据不同应用,汉语分词的颗粒度大小应该不同。比如,在机器翻译中,颗粒度应该大一些,“北京大学” 就不能被分成两个词。而在语音识别中,“北京大学” 一般是被分成两个词。因此,不同的应用,应该有不同的分词系统。谈谈中文分词—– 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把转载 2014-06-24 14:39:25 · 517 阅读 · 2 评论 -
数学之美系列十五:繁与简 自然语言处理的几位精英
柯林斯从师于自然语言处理大师马库斯,现任麻省理工学院副教授(别看他是副教授,他的水平在当今自然语言处理领域是数一数二的),博士期间,柯林斯写了一 个后来以他名字命名的自然语言文法分析器 (sentence parser),可以将书面语的每一句话准确地进行文法分析。我在数学之美系列中一直强调的一个好方法就是简单。但是,事实上,自然语言处理中也有一些特例,比如有些学者将一个问题研究到极致,转载 2014-07-03 17:50:48 · 532 阅读 · 0 评论 -
数学之美系列十六:不要把所有的鸡蛋放在一个篮子里 — 谈谈最大熵模型
最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小,因为这时概率分布的信息熵最大,所以人们称这种模型叫“最大熵模型” 。[我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理(the转载 2014-07-04 10:28:59 · 874 阅读 · 1 评论 -
数学之美系列十七:闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)
搜索引擎的作弊者所作的事,就如同在手机信号中加入了噪音,使得搜索结果的排名完全乱了。但是,这种人为加入的噪音并不难消除,因为作弊者的方法不可能是随机的(否则就无法提高排名了)。而且,作弊者也不可能是一天换一种方法,即作弊方法是时间相关的。自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,闪光的不一定是转载 2014-07-07 10:20:20 · 555 阅读 · 0 评论 -
数学之美系列十八:矩阵运算和文本处理中的分类问题
在文本分类中,另一种办法是利用矩阵运算中的奇异值分解(Singular Value Decomposition,简称 SVD) 。现在让我们来看看奇异值分解是怎么回事。首先,我们可以用一个大矩阵A来描述这一百万篇文章和五十万词的关联性。这个矩阵中,每一行对应一篇文 章,每一列对应一个词。我在大学学习线性代数时,实在想不出它除了告诉我们如何解线性方程外,还能有什么别的用途。关于矩阵的许多转载 2014-07-07 10:26:57 · 614 阅读 · 0 评论 -
数学之美系列十八:矩阵运算和文本处理中的分类问题
在文本分类中,另一种办法是利用矩阵运算中的奇异值分解(Singular Value Decomposition,简称 SVD) 。现在让我们来看看奇异值分解是怎么回事。首先,我们可以用一个大矩阵A来描述这一百万篇文章和五十万词的关联性。这个矩阵中,每一行对应一篇文 章,每一列对应一个词。我在大学学习线性代数时,实在想不出它除了告诉我们如何解线性方程外,还能有什么别的用途。关于矩阵的许多转载 2014-07-09 14:32:33 · 519 阅读 · 0 评论 -
数学之美系列十九:马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)
贝叶斯网络在图像处理、文字处理、支持决策等方面有很多应用。在文字处理方面,语义相近的词之间的关系可以用一个贝叶斯网络来描述。我们利用贝叶斯网络,可以找出近义词和相关的词,在 Google 搜索和 Google 广告中都有直接的应用。我们在前面的系列中多次提到马尔可夫链 (Markov Chain),它描述了一种状态序列,其每个状态值取决于前面有限个状态。这种模型,对很多实际问题来讲是一转载 2014-07-09 15:28:19 · 647 阅读 · 0 评论 -
数学之美系列一:统计语言模型
也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一个语言问题时,总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地,介绍一些数学工具,以及我们是如何利用这些工具来开发 Google 产品的。转载 2014-06-21 11:00:11 · 533 阅读 · 1 评论 -
数学之美系列二十一:布隆过滤器(Bloom Filter)
布隆过滤器决不会漏掉任何一个在黑名单中的可疑地址。但是,它有一条不足之处。也就是它有极小的可能将一个不在黑名单中的电子邮件地址判定为在黑名单中,因为有可能某个好的邮件地址正巧对应个八个都被设置成一的二进制位。好在这种可能性很小,我们把它称为误识概率。在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是转载 2014-07-14 17:54:56 · 801 阅读 · 0 评论 -
数学之美系列 二十三 输入一个汉字需要敲多少个键 — 谈谈香农第一定律
如果我们把汉字组成词,再以词为单位统计信息熵,那么,每个汉字的平均信息熵将会减少。这样,平均输入一个字可以少敲零点几次键盘。不考虑词的上下文相关 性,以词为单位统计,汉字的信息熵大约是8 比特作用,也就是说,以词为单位输入一个汉字平均只需要敲 8/4.7=1.7 次今天各种汉字输入法已经很成熟了,随便挑出一种主要的输入法比十几年前最好的输入法都要快、要准。现在抛开具体的输入法,从理论上转载 2014-07-15 14:58:12 · 841 阅读 · 0 评论 -
数学之美系列二十:自然语言处理的教父 马库斯
马库斯利用自己的影响力让美国自然科学基金会和 DARPA 出钱立项,建立的数百个标准的语料库。其中最著名的是 PennTree Bank 的语料库。PennTree Bank 覆盖多种语言。每一种语言,它有几十万到几百万字的有代表性的句子,每个句子都有的词性标注,语法分析树等等。我们在前面的系列中介绍和提到了一些年轻有为的科学家,迈克尔·柯林斯,艾里克·布莱尔,大卫·雅让斯基,拉纳帕提转载 2014-07-14 17:52:31 · 553 阅读 · 0 评论 -
数学之美系列十三:信息指纹及其应用
信息指纹的用途远不止网址的消重,信息指纹的的孪生兄弟是密码。信息指纹的一个特征是其不可逆性, 也就是说, 无法根据信息指纹推出原有信息,这种性质, 正是网络加密传输所需要的。比如说,一个网站可以根据用户的Cookie 识别不同用户,这个 cookie 就是信息指纹。任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。只要算法设计的好,任转载 2014-07-03 16:54:34 · 420 阅读 · 0 评论 -
数学之美系列十四:谈谈数学模型的重要性
1. 一个正确的数学模型应当在形式上是简单的。2. 一个正确的模型在它开始的时候可能还不如一个精雕细琢过的错误的模型来的准确,但是,如果我们认定大方向是对的,就应该坚持下去。3. 大量准确的数据对研发很重要。4. 正确的模型也可能受噪音干扰,而显得不准确[注:一直关注数学之美系列的读者可能已经发现,我们对任何问题总是在找相应的准确的数学模型。为了说明模型的重要性,今年七月份转载 2014-07-03 17:26:10 · 696 阅读 · 1 评论 -
数学之美系列十一:Google 阿卡 47 的制造者阿米特.辛格博士
辛格在 AT & T 时确立了他在学术界的地位,但是,他不是一个满足于做实验写论文的人,于是他离开了实验室来到了当时只有百、十人的 Google。在这里,他得以施展才智,重写了 Google 的排名算法,并且一直在负责改进它。枪迷或者看过尼古拉斯.凯奇(Nicolas Cage)主演的电影“战争之王”(Lord ofWar)的人也许还记得影片开头的一段话:(在所有轻武器中,)最有名转载 2014-07-02 17:34:12 · 611 阅读 · 0 评论 -
数学之美 二十四 从全球导航到输入法——谈谈动态规划
动态规划和我们的拼音输入法又有什么关系呢?其实我们可以将汉语输入看成一个通信问题,而输入法则是一个将拼音串到汉字串的转换器。每一个拼音可以对应多个汉字,一个拼音串就可以对应图论中的一张图。今年九月二十三日,Google、T-Mobile 和 HTC 宣布了第一款基于开源操作系统 Android 的 3G 手机,其中一个重要的功能是利用全球卫星定位系统实现全球导航。这个功能在其它手机中早转载 2014-07-15 15:28:18 · 786 阅读 · 0 评论 -
数学之美系列三:隐含马尔可夫模型在语言处理中的应用(语音识别,机器翻译,自动纠错)
在利用隐含马尔可夫模型解决语言处理问题前,先要进行模型的训练。隐含马尔可夫模型在处理语言问题早期的成功应用是语音识别。 八十年代李开复博士坚持采用隐含马尔可夫模型的框架,成功地开发了世界上第一个大词汇量连续语音识别系统 Sphinx。前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简转载 2014-06-24 17:41:28 · 2167 阅读 · 2 评论 -
数学之美系列七:信息论在信息处理中的应用
信息熵正是对不确定性的衡量,因此信息熵可以直接用于衡量统计语言模型的好坏。贾里尼克从信息熵出发,定义了一个称为语言模型复杂度(Perplexity) 的概念,直接衡量语言模型的好坏。一个模型的复杂度越小,模型越好。我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个转载 2014-06-26 14:58:34 · 509 阅读 · 0 评论 -
数学之美系列四:怎样度量信息?
信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了“ 信息熵”(sh ā ng) 的概念,才解决了对信息的量化度量问题。前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢?信息是个很抽象的概念。我们常常转载 2014-06-26 12:03:48 · 473 阅读 · 0 评论 -
数学之美系列八:贾里尼克的故事和现代语言处理
贾里尼克在康乃尔十年磨一剑,潜心研究信息论,终于悟出了自然语言处理的真谛。贾里尼克和波尔,库克以及拉维夫对人类的另一大贡献是 BCJR 算法,这是今天数字通信中应用的最广的两个算法之一(另一个是维特比算法)。有趣的是,这个算法发明了二十年后,才得以广泛应用读者也许注意到了,我们在前面的系列中多次提到了贾里尼克这个名字。事实上,现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的转载 2014-06-26 17:48:39 · 958 阅读 · 0 评论 -
数学之美系列五:布尔代数和搜索引擎的索引
早期的文献检索查询系统大多基于数据库,严格要求查询语句符合布尔运算。今天的搜索引擎相比之下要聪明的多,它自动把用户的查询语句转换成布尔运算的算式。当然在查询时,不能将每篇文献扫描一遍,来看看它是否满足上面三个条件,因此需要建立一个索引。数学之美系列五 — 简单之美:布尔代数和搜索引擎的索引[建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相转载 2014-06-25 11:58:08 · 561 阅读 · 0 评论 -
数学之美系列六:图论和网络爬虫 (Web Crawlers)(如何自动下载互联网所有网页)
图论中所讨论的的图由一些节点和连接这些节点的弧组成。隐含在文字背后的网址称为“ 超链接” ,有了超链接,我们可以从任何一个网页出发,用图的遍历算法,自动地访问到每一个网页并把它们存起来。完成这个功能的程序叫做网络爬虫。[离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互转载 2014-06-26 10:51:48 · 516 阅读 · 0 评论 -
数学之美系列九:如何确定网页和查询的相关性
现在任何一个搜索引擎都包含几十万甚至是上百万个多少有点关系的网页。那么哪个应该排在前面呢?显然我们应该根据网页和查询“原子能的应用” 的相关性对这些网页进行排序。因此,这里的关键问题是如何度量网页和查询的相关性。[我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基转载 2014-06-28 14:44:13 · 495 阅读 · 1 评论 -
数学之美系列五:布尔代数和搜索引擎的索引
早期的文献检索查询系统大多基于数据库,严格要求查询语句符合布尔运算。今天的搜索引擎相比之下要聪明的多,它自动把用户的查询语句转换成布尔运算的算式。当然在查询时,不能将每篇文献扫描一遍,来看看它是否满足上面三个条件,因此需要建立一个索引。数学之美系列五 — 简单之美:布尔代数和搜索引擎的索引[建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相转载 2014-06-30 13:35:33 · 529 阅读 · 0 评论 -
数学之美系列十:有限状态机和地址识别
使用有限状态机识别地址,关键要解决两个问题,即通过一些有效的地址建立状态机,以及给定一个有限状态机后,地址字串的匹配算法。好在这两个问题都有现成的算法。有了关于地址的有限状态机后,我们就可又用它分析网页,找出网页中的地址部分,建立本地搜索的数据库。地址的识别和分析是本地搜索必不可少的技术,尽管有许多识别和分析地址的方法,最有效的是有限状态机。一个有限状态机是一个特殊的有向图(参转载 2014-06-30 14:32:42 · 1473 阅读 · 0 评论 -
数学之美系列十二:余弦定理和新闻的分类
当两条新闻向量夹角的余弦等于一时,这两条新闻完全重复(用这个办法可以删除重复的网页);当夹角的余弦接近于一时,两条新闻相似,从而可以归成一类;夹角的余弦越小,两条新闻越不相关。余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算转载 2014-07-02 18:23:53 · 620 阅读 · 1 评论 -
数学之美系列二十二:由电视剧《暗算》所想到的 — 谈谈密码学的数学原理
不管怎么样,我们今天用的所谓最可靠的加密方法的数学原理其实就这么简单,一点也不神秘,无非是找几个大素数做一些乘除和乘方运算就可以了。前一阵子看了电视剧《暗算》,蛮喜欢它的构思和里面的表演。其中有一个故事提到了密码学,故事本身不错,但是有点故弄玄虚。不过有一点是对的,就是当今的密码学是以数学为基础的。(没有看过暗算的读者可以看一下介绍,http://ent.sina.com.cn/v/2转载 2014-07-15 10:29:21 · 564 阅读 · 0 评论