- 博客(16)
- 资源 (3)
- 收藏
- 关注
转载 余弦定理和新闻的分类
余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。 Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意
2011-09-16 08:52:20
455
转载 如何确定网页和查询的相关性
我们还是看上回的例子,查找关于“原子能的应用”的网页。我们第一步是在索引中找到包含这三个词的网页(详见关于布尔运算的系列)。现在任何一个搜索引擎都包含几十万甚至是上百万个多少有点关系的网页。那么哪个应该排在前面呢?显然我们应该根据网页和查询“原子能的应用”的相关性对这些网页进行排
2011-09-16 08:42:29
486
转载 布尔代数和搜索引擎的索引
发表者: 吴军,Google 研究员 [建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,以后
2011-09-16 08:26:17
662
转载 怎样度量信息
发表者:吴军,Google 研究员 前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢? 信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到
2011-09-16 08:03:46
973
转载 信息指纹及其应用
任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。只要算法设计的好,任何两段信息的指纹都很难重复,就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。 我们在图论和网络爬虫一文中提到,为了防止重复下载同一
2011-09-16 07:36:01
534
转载 ubuntu 自动生成 makefile
文件夹emit_signal包含文件callback.c main.c callback.h emit_signal.glade1. 进入相应的目录$cd emit_signal$autoscan 如果没有安装autoscan对应的package,系统会提示使用apt-get install安装autoscan是用来扫描源代码目录生成configure.scan文
2010-05-23 21:19:00
3107
原创 学习小结@10.3.17
GPU的基本执行过程目前支持的CUDA的Nvidia显示芯片,它的shader部分都是由多个multiprocessors组成的。每个multiprocessor里包含了八个streamprocessrs,其组成是四个四个一组,也就是说实际山是两组4D(double?)的SIMD处理器,此外,每个multiprocessor还具有8192个寄存器,16kb的sharemem
2010-03-17 19:36:00
578
原创 工作总结@2010.3.16
在CUDA中,一般的数据复制到的显卡内存的部分,称为globalmemory。这些内存时没有cache的,而且,存取globalmemory所需要的时间(即latency)是非常长的,通常是数百个cycles.如果我们的程序只有一个thread,所以每次它读取globalmemory的内容,就要等到实际读取到数据、累加到sum之后,才能进行下一步,这就是为什么如果采取一个线
2010-03-17 09:07:00
486
原创 学习小结@10.3.15
(1) CUDA:可伸缩并行编程模型CUDA是一种并行编程模型和软件环境,包含3个重要的抽象概念:线程组层次结构(warp、block、grid)共享存储器、屏蔽同步。CUDA是Nvidia的GPGPU模型,在此架构下,一个程序分为两个部分:host端和device端。Host端是指在CPU上执行的部分,而device端则是在显示芯片上的部分。Device端的程序又称为“kernel
2010-03-15 20:28:00
591
转载 Xen 虚拟机迁移方案
Xen虚拟机两大迁移方法详解一、迁移的准备工作 在进行迁移之前,有一些准备工作要做,主要是目的主机和源主机及其网络方面。下面分别加以介绍。 首先,在源主机和目的主机方面,两者必须都运行有Xen和xend守护进程。必须确保目的主机具有足够的磁盘空间、内存容量和资源,以供迁移后的domain运行之用。此外,源主机和目的主机还必须具有相同的体系结构和虚拟化扩展,例如,如果源主机使用的
2010-01-17 14:21:00
1077
原创 Google is leaving...
今天下午才群里看到google 散伙饭的字样,突感不妙,前段时间的预测居然这么快就 come true了打开csdn,头条便是《谷歌官方表态考虑退出中国》字样,看来是真的了,同时,又看到下面的所谓几个专家的views,而尤其百度的首席XX官的评价最为“醒目”,说google的行为在他看来是非常恶心的,是市侩行为,个人感觉这有点落井下石的意味,无论是google被美国还是中国政府所左右,还是
2010-01-13 21:57:00
404
原创 Xen 部署
采用VMware 6.5.0平台linux为2.6.21版本的fedora core 7Xen的版本为3.4.2我的安装步骤:1. 平台选定刚开始选择Fedora Core 6,当时考虑的是找一个不Xen3.4.2所支持linux版本最接近的,安装完进行相关库更新时,由于年代久远没有更新源,便选择了Fedora core 72. 源代码获得在http://www.xen.org/pro
2010-01-11 23:40:00
1159
原创 Xen CPU 调度算法对比
Xen的CPU调度算法主要有3种,BVT(borrowed virtual time)调度算法、SEDF(simple earliest deadline first)调度算法、以及Credit调度算法。 一、BVT调度算法1.BVT调度算法的基本原理BVT算法由 KermethJ.Duda于1999年提出。BVT是一种公平性优先的调度算法。该算法将时间分为实际时间和虚拟时间:真实
2010-01-11 23:15:00
6559
原创 Xen Introduction
guest OS是指Xen能够操控的操作系统之一,domain是指一个运行中的虚拟机,在其上有一个guest OS在执行。我们称Xen本身为hypervisor,因为它运行的特权级要比它所操控的guest OS中的supervisor code运行的特权级更高。 虚拟化CPU对guest OS提出了几个要求。因为hypervisor插在操作系统的下层违背了惯常的关
2010-01-11 23:09:00
892
原创 元素选择问题
元素选择又称顺序统计学,无非包含在一个数据集中查找最小的数,最大的数,中位数,第K位数,前K小数。。。云云。 1. 查找最小数,查找最大数: 顺序查找,比较次数 n—1 ,复杂度为O(n) 如果同时查找出最大最小数,则采取如下方法 FindMinMax(A) FindMinMax(A):1. 将n个元素两两分为 n/2 组2. 每组进行比较,则会得到 n/2
2010-01-11 22:23:00
574
原创 New blog New life
明天算法考试,今天才开始复习,不知道是胸有成竹还是已经对考试很随意了。 公历2009年应该算是比较阴霾的一年,踏入2010的第一天,凌晨就碰到了第一个good message,终于得到了Rank A,幸运终于又开始光顾我了。 今年没有什么大的目标,两篇parallel computing的顶级会议论文 and GRE1350+,实习就暂不考虑了今年。
2010-01-11 13:33:00
439
Crack Coding Interview
2011-09-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人