算法
文章平均质量分 75
gavinwjin
Technology Changes Life
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
元素选择问题
元素选择又称顺序统计学,无非包含在一个数据集中查找最小的数,最大的数,中位数,第K位数,前K小数。。。云云。 1. 查找最小数,查找最大数: 顺序查找,比较次数 n—1 ,复杂度为O(n) 如果同时查找出最大最小数,则采取如下方法 FindMinMax(A) FindMinMax(A):1. 将n个元素两两分为 n/2 组2. 每组进行比较,则会得到 n/2原创 2010-01-11 22:23:00 · 620 阅读 · 0 评论 -
怎样度量信息
发表者:吴军,Google 研究员前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢?信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到转载 2011-09-16 08:03:46 · 1039 阅读 · 0 评论 -
布尔代数和搜索引擎的索引
发表者: 吴军,Google 研究员 [建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,以后转载 2011-09-16 08:26:17 · 707 阅读 · 0 评论 -
如何确定网页和查询的相关性
我们还是看上回的例子,查找关于“原子能的应用”的网页。我们第一步是在索引中找到包含这三个词的网页(详见关于布尔运算的系列)。现在任何一个搜索引擎都包含几十万甚至是上百万个多少有点关系的网页。那么哪个应该排在前面呢?显然我们应该根据网页和查询“原子能的应用”的相关性对这些网页进行排转载 2011-09-16 08:42:29 · 525 阅读 · 0 评论 -
余弦定理和新闻的分类
余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意转载 2011-09-16 08:52:20 · 482 阅读 · 0 评论 -
信息指纹及其应用
任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。只要算法设计的好,任何两段信息的指纹都很难重复,就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。我们在图论和网络爬虫一文中提到,为了防止重复下载同一转载 2011-09-16 07:36:01 · 570 阅读 · 0 评论
分享